Парсить по одной ссылке с каждого сайта

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем napserious, 24 ноя 2016.

  1. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Добрый день,
    Присутствует 30 сайтов, по ним я провожу поиск ссылок с фильтром "product.php?id="
    В рузультате я собираю кучу ссылок с одново и того же сайта только с разными значениями id.
    Но мне нужно только по одной ссылке данного вида с каждого сайта,
    тоесть 30 сайтов = 30 ссылок с фильтром "product.php?id=".
    Есть ли возможность приостонавливать/пропускать поиск по данному сайту когда он нашел N-ое количество ссылок?
    Собираюсь обработать еще 15к сайтов и это занимает много времени если он будет собирать абсолютно все ссылки.
    Пересмотрел уже все уроки и все FAQ почитал..
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Смотрите скриншот:
    2016-11-24_17-36-20.png
     
  3. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Спасибо за ответ,
    попытался сделать всё,
    вот настройки
     

    Вложения:

    • 1.png
      1.png
      Размер файла:
      14,3 КБ
      Просмотров:
      7
  4. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    В результате в найденных ссылка всёравно присутсвуею дупликаты, хотя максимальное значение найденных ссылок я установил на 2.
    С данными настройками по идее я должен был получить только первые две ссылки, далее он должен был перейти на следуещий сайт, или я не прав?
     

    Вложения:

    • 2.png
      2.png
      Размер файла:
      14,8 КБ
      Просмотров:
      3
  5. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Или изза того что установлено лимит 5 обработанных ссылок он с каждой собирает еще по 2?
    Тоесть 5 обработанных * 2 найденных = 10 в финале?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это условия завершения и смены стартовых URL. Если он при первом запросе найдет 1000 ссылок, в результат выведет и 1000. А вот когда набрал нужное количество ссылок, то перейдет к следующему стартовому URL.
    Все нормально работает! Дублей нет!
     

    Вложения:

Поделиться этой страницей