Дубли страниц - Сбор ссылок

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем napserious, 3 дек 2016.

  1. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Добрый день,
    при сборе ссылок попадаются много таких дублей, где разница у них только ID.
    Как можно отпарсить только по одной странице? где один и тот же параметры.
    То есть в Очереди ссылок у меня должна быть только одна ссылка типа
    prod_show.php?subcatid=*(любой из ID, без разницы какой)
    oferte.php?gid=*(любой из ID, без разницы какой)
    А в собраных ссылках только одна
    roemheld.aspx?cmd=IMAGES&csid=*(любой из ID, без разницы какой)
    Вопрос конкретно не по одному сайту который указан на скриншоте.
    В начальных ссылках у меня 40к сайтов записано.
    С каждого сайта я собираю ссылки по Dork'am.
    Использовать условия завершения и смены елементов это хорошый вариант, но при переходе на следующий линк он закрывает потоки, потом снова открывает.. Это занимает много времени.
    А если вбивать их напрямую в список ссылок то потоки не останавливаются и уходит меньше времени на сборы.
    upload_2016-12-3_13-2-30.png
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    может после добавления ссылок в список очереди отметить галочку "не пополнять список очереди" ?
     
  3. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Так и сделал, спасибо.
    Забыл про нее
     

Поделиться этой страницей