Не все товары попадают в CSV

Тема в разделе "Решение различных задач по парсингу", создана пользователем Rod, 29 авг 2018.

  1. Rod

    Rod Member Пользователи

    Регистрация:
    29 авг 2018
    Сообщения:
    52
    Добрый день
    Столкнулся с такой проблемой:

    Всего имеется 560 ссылок на карточки товара.
    Задаю границы парсинга на 2 поля.
    Запускаю парсинг.

    В итоговом файле CSV оказывается всего 150 товаров.
    В конце файла видно, что несколько строк пустые, стоит только разделитель (;).

    Не понятно, почему не парсятся все товары...
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    смотрите лог (ctrl+l)
     
  3. Rod

    Rod Member Пользователи

    Регистрация:
    29 авг 2018
    Сообщения:
    52
    Спасибо.
    Запустил парсинг еще раз.
    Посмотрел в "живом" режиме во время парсинга лог.
    Несколько ссылок не открылось.
    Парсер прошел по всем ссылкам (560 штук). У некоторых появился статус "файл не сохранен: программе не удалось загрузить страницу". При импорте лога в csv, у этих ссылок, я так понимаю, появился статус "1".

    Ссылки, которые не удалось загрузить, проверил через браузер - работают.
    Получается, что в этот раз оказалось меньше неработающих ссылок. чем в прошлый.

    Можно ли как-то объяснить, почему в разных итерациях парсинга получается разное количество действительных ссылок из одного и того же списка?

    P.S. Нашел на форуме, что можно в настройках парсинга задать вывод в ячейку товара с неработающей ссылки любую надпись через [PARAM]. Подскажите, где это настраивается?

    Спасибо
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    я бы делал так:
    1) вы во сколько потоков парсите? Поставьте в 1 проток
    2) нажмите ctrl+U поставьте галочку повторно загружать документы
    3) под ней есть кнопка, что делать если документ не загрузился, туда например можно вписать <CD_DOCURL!>, но вообще список не загруженных ссылок проще получать из того же лога, правая кнопка мыши по списку.
    4) если это не поможет добавить еще и задержку
    5) выяснить почему ссылки не открываются.)
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Укажите число потоков 1 и поставьте с хаотичним значением паузу 100-2000 так и впишите
     
    Rod нравится это.
  6. Rod

    Rod Member Пользователи

    Регистрация:
    29 авг 2018
    Сообщения:
    52
    Парсинг в 1 поток собрал все товары, кроме 2.
    Буду увеличивать паузу.
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    ну есть вероятность что эти пару товаров просто не будет.
     

Поделиться этой страницей