Находятся не все ссылки.

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем silkwork, 21 авг 2012.

  1. silkwork

    silkwork New Member Пользователи

    Регистрация:
    24 июл 2012
    Сообщения:
    4
    Пытаюсь спарсить ссылки с сайта Ссылки недоступны для гостей, в итоге получаю всего 20 тысяч ссылок на товары, причем один и тот же товар имеет несколько разных адресов (аж по 7), в итоге куча дубликатов.
    Для парсинга использую инструмент сканер сайтов, и единственные настройки это: стартовый url Ссылки недоступны для гостей добавлять в очередь только ссылки содержащие /category/ и /en-CA/; и шаблон ссылок, которые должны содержать и */product/* и */en-CA/*

    На сайте явно не меньше 100 тыс. товаров. И ни разу у меня не получилось спарсить полностью любой сайт, если я пользуюсь инструментом сканер сайтов.

    Как нужно настроить программу чтобы она находила все товары с сайта, к примеру, Ссылки недоступны для гостей
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Добавьте в фильтре ссылок именно там в окно "поиск замена" например
    ?path={skip}|
    чтобы удалять ненужные хвосты у ссылок и потом поможет избежать дубликатов
     
  3. ixbit

    ixbit New Member Пользователи

    Регистрация:
    1 дек 2012
    Сообщения:
    4
    у меня то же самое(находит не все ссылки), дело было так:
    сканировал ссылки в 10потоков, задержка-0 1-й день 1578 ссылок, 2-й день 1485ссылок
    поменял настройки 1поток, задержка 0,- 8678 ссылок(как раз где то весь каталог!)
    поставил на ночь импорт контента 1 поток, задержка 0 .... забанили.
    на след день(другой IP), какие только настройки и IP не пробовал сканер выдает ВСЕГО 296 ссылок, как лечить?
     
    Последнее редактирование: 11 дек 2012
  4. ixbit

    ixbit New Member Пользователи

    Регистрация:
    1 дек 2012
    Сообщения:
    4
    походу дела это зависит от нагрузки сервера, вот сейчас 24-й час ночи, сканирую... уже за 1700 ссылок перевалило!
     

Поделиться этой страницей