проблема с парсингом сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Crt13, 25 дек 2020.

  1. Crt13

    Crt13 New Member Пользователи

    Регистрация:
    18 дек 2020
    Сообщения:
    3
    Всем привет и с Наступающим!

    При парcинге товаров с сайта, не все товары парсятся.

    Пример:

    В Категории товаров присутствует 37 позиций

    из них 12 нет в наличии ( стоит условие их не парсить) - с этим все ок

    Далее, из оставшихся 25 позиций спарсены 10, из них 3 позиции спарсилось без отображения кол-ва. 15 не спарсилось вообще.

    Подскажите, пожалуйста, в чем может быть причина?
     
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    Что-то мне подсказыает, что вы не договоряиваете кое-какие данные
     
    Achronis нравится это.
  3. Crt13

    Crt13 New Member Пользователи

    Регистрация:
    18 дек 2020
    Сообщения:
    3
    Я новичок в этой теме, скажите что необходимо для определения проблемы, и я на него отвечу, спасибо
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    как минимум ссылку на сайт
    по возможности можете приложить файл проекта
     
  5. Crt13

    Crt13 New Member Пользователи

    Регистрация:
    18 дек 2020
    Сообщения:
    3
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 620 постов.**
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Настройки в Ctrl+h время ожидания загрузки страницы и список юзерагентов добавьте.
    Потоков 5 с паузой 100-2000
     
    Crt13 нравится это.
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    В ctrl+l написано, какие документы не загрузились и по какой причине.

    Бывает, что сайты многопоточно данные не отдают (так настроены). В этом случае пробуйте парсить в 1 поток, а если нужна скорость - используйте список хороших прокси.
     
    Crt13 нравится это.

Поделиться этой страницей