Постоянное количество ссылок в сканере

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем inotoxic, 27 окт 2017.

  1. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Ссылки недоступны для гостейв сканере сайтов собираю ссылки на объявления
    Проблема в том , что в районе 4000 ссылок - ссылки перестают собираться (знаю что сканер не собирает дубли).
    Заметил такую закономерность что после 200 странице - при просмотре следующих страниц идут дубли объявлений.
    Собирал через прокси и разными юзерагентами
    ??? Возможно что на самом сайте объявлений всего в районе 4000
    Кому не сложно - можете проверить выдачу в сканере? Заранее спасибо!
    Прилагаю проект

    UPD...
    Нашел на сайте xml общее кол-во объявлений на сайте 201500 !
    Но мне нужно собрать только из Ссылки недоступны для гостей.
    В xml фильтрации категории -нет.
     

    Вложения:

    Последнее редактирование: 28 окт 2017
  2. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    401
    Добрый день.
    Анализ не проводил. Пишу с планшета.

    Один из вариантов как отсеять ссылки - настроить отдельный проект, где Граница будет уникальной для этой категории или содержать ключевые слова. В шаблоне вывода вставляете <CD_DOCURL!>. В глобальном фильтре ctrl+shif+f указываете ключевые слова, чтобы документ был сохранен.

    Update:
    Первоначально ссылки брать из XML-карты.
     
    Последнее редактирование: 28 окт 2017
  3. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Вопрос не в том как отсеять ссылки.
    После применения фильтра на сайте, Ссылки недоступны для гостей на 940 страниц - 35200 с лишним объявлений.
    Проблема в том, что ссылки собираются только с первых 200 страниц - 4000 объявлений.
    С 201-202-203 страницы идут дубли объявлений.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Проверил, сайт выдает только первые 200 страниц (это "проблема" на стороне сайта).

    Думаю, можно пробовать парсить по маркам (с каждой по 200 страниц выдачи).
     
    inotoxic нравится это.
  5. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Спасибо за проверку!
    Наверное Вы правы - либо по маркам парсить, либо по xml
     
    Root нравится это.

Поделиться этой страницей