После 200 ссылок в результатах парса начинает попадать HTML код страницы

Тема в разделе "Сохранение результата парсинга контента", создана пользователем VVV, 30 авг 2022.

  1. VVV

    VVV New Member Пользователи

    Регистрация:
    30 авг 2022
    Сообщения:
    2
    В задании стоит 3900 ссылок, запуск задания как с прокси, так и без (даже в один поток) - результат одинаков - где-то после 200го результата начинает сыпаться html код страницы (Описание товара на WB с html, причем в результаты валится всё и коды счетчиков и ссылки на скрипты и прочее.. ) , и так несколько ссылок подряд, потом снова нормально парсится.

    Если запустить отдельно эту ссылку на парсинг - всё ок, это именно в очереди заданий происходит.
    Баг именно на описании товара получаем.
    На примере этого парсинга можно показать:
    Вот так баг отображается в результатах парсинга, тут на 297 результате пошел (дальше там идет левый код )
    csv-rez.jpg

    вот ту конец этого безобразия и начинается следующий нормальный результат парсинга (правда через десяток нормальных выдач - снова повторяется баг):

    end-bug.jpg

    а вот настройки парсинга:
    Задание границ парсинга - httpswww.wildberries.rucatalog6658481detail.aspx.jpg

    Дополнительные настройки границ парсинга.jpg

    Помогите плиз, что-то не хочется по 200 ссылок в ручную запускать проект.
    Кстати, планировщик пробовал - задавал делить файл со ссылкам по 200 штук - тоже самое происходит.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Сделайте проверку на наличие определенного элемента в описании. Далее условие парсить\не парсить.
     
    Slavikprof нравится это.

Поделиться этой страницей