Список парсинга (не ищет с первого раза)

Тема в разделе "Разное", создана пользователем ser9ga, 15 дек 2016.

  1. ser9ga

    ser9ga Member Пользователи

    Регистрация:
    30 ноя 2016
    Сообщения:
    83
    С первого раза сканер сайтов выдает не все ссылки.
    Каждый раз картина немного разная, но суть таже.
    1 проход - 310 ссылок
    2 проход - 310 ссылок
    3 проход - 313 ссылок
    4 и т.д. проход - 330 ссылок.
    Как с этим бороться?


    Решено. Спсибо Kreol
     
    Последнее редактирование: 20 дек 2016
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Начните с увеличения паузы сканера и уменьшения потоков. И рекомендуется правильно настроить чтоб не возникало вопросов.
    Не исключено что сайт вас банит и т.д. - Сложно гадать по такому краткому описанию. Ни скринов ни проекта.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Да, гадать сложно.

    Ошибки в сканере искать - лишнее!

    Описываемому в теме эффекту есть другое объяснение, например, на сайте может быть блок рандомных товаров!
     
  4. ser9ga

    ser9ga Member Пользователи

    Регистрация:
    30 ноя 2016
    Сообщения:
    83
    Вот пример проекта. Ставил 1 поток и 10000 мсек задержку - не помогает.
     

    Вложения:

  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Лично я бы на вашем месте сделал так
    Зашел бы в 7 основных категорий и проверил сколько там страниц, например для постельного белья указав
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    мы увидем что их там 107
    потом идем в генератор ссылок и формируем запрос {key}?p={num}
    Все осановные ссылки засовываем в {key} и формируем список ссылок.
    И не трогаем сканер.
    Лично я всегда так делаю.
     
  6. ser9ga

    ser9ga Member Пользователи

    Регистрация:
    30 ноя 2016
    Сообщения:
    83
    Попробовал и так. Не помогло.
    Все страницы со списками товаров (по 60 на каждой) сканер и до этого загружает исправно. Дело в том, что завершая сканирование каждой страницы, счетчик найденных ссылок должен прибавляться по 60. После первой показывает 60. После второй 120. А вот после третьей 179. И так далее. Где по 1 ссылке теряет, где по 2, где вообще по 5. Причем при следующем прогоне может нормально 180 показать. От чего это зависит - ни как не могу понять.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Еще раз говорю, дело в сайте. Некоторые сайты могут, например, один и тот же товар показывать на двух разных страницах, а сканер считает только уникальные ссылки (без учета дублей).

    Вместо того, чтобы голову ломать и всех занимать этим вопросом, лучше найдите и предоставьте ту ссылку на товар (и адрес, где она находится), которую сканер, возможно, не находит.
     
  8. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Явно вы не то делаете
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    изучайте
     
    Root нравится это.
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Разобрались
    Сайт на JS и тугой в обработке, не хватало времени по таймауту, Поставили больше все стало норм.
     
    Root и ser9ga нравится это.
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Рекомендую всем освоить Ссылки недоступны для гостей
     
    Kreol нравится это.

Поделиться этой страницей