Как повторно загрузить если в отчете значение count меньше других страниц?

Тема в разделе "Решение различных задач по парсингу", создана пользователем kofe, 3 июл 2019.

  1. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    47
    Иногда парсинг проходит - программа считает, что выполнила задачу, но результаты по некоторым вэб документам оказываются пустыми (парсинг по ним не проходит). Просматривая отчет заметил, что у вэб документов по которым парсинг не проходит имеют меньшее значение count нежели у тех, по которым парсинг прошел удачно (га картинке count 8 и 15, 20 и 27). Т. е. программа считает, что парсинг прошел и не повторяет попытку загрузить документ (как в случае ранее решенного вопроса: "Результирующий документ оказался пустым").

    Безымянный рисунок.png

    Прошу подсказать как можно решить поставленную задаче, и что означает count в отчете лога парсинга.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.455
    Здравствуйте.

    Код:
    [IF1][CHARCOUNT][EXCLUDE] |,|.[/EXCLUDE]ТЕКСТ, ГДЕ ПОДСЧИТАТЬ КОЛИЧЕСТВО СИМВОЛОВ[/CHARCOUNT]<15[THEN][RELOADDOCUMENT][SKIPFILESDOWNLOADING][/IF1]ТЕКСТ ШАБЛОНА ВЫВОДА
     
  3. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    47
    Благодарю, скажите вместо "ТЕКСТ, ГДЕ ПОДСЧИТАТЬ КОЛИЧЕСТВО СИМВОЛОВ" какую-то из границ парсинга нужно вставлять например [GRAN1], если да, то которую?

    Возможно мне кажется (маловероятно, но могу ошибаться), что день ото дня количество count изменяется (на том же сайте). Я не совсем понимаю символы, которой из границ парсинга считаются.

    Вот например (см картинку), тот же парсинг после паузы (выделил, что прошло: 35 и 59, все остальное - нет).

    Безымянный рисунок.png

    Прошу прояснить.
     
    Последнее редактирование: 4 июл 2019
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.455
    Последнее редактирование: 4 июл 2019
  5. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    47
    Благодарю, кое-что прояснилось.

    Используя макрос PHP_SCRIPT, количеством символов в сохраняемом документе (count) будет количество символов echo из пхп скрипта (я долго не мог этого понять).

    Используя макрос [IF2] (пример ниже) можно подсчитать количество символов echo из пхп скрипта - это не может не радовать, однако выполняя подсчет, автоматически исполняется и сам пхп скрипт:
    Код:
    [IF2][CHARCOUNT][EXCLUDE] |,|.[/EXCLUDE]
    <PHP_SCRIPT=https://xxx.php>
    all_data=[DATAENCODE]<CD_CYCLE_GRAN_1!>[/DATAENCODE]
    </PHP_SCRIPT>
    [/CHARCOUNT]>15[THEN]больше[ELSE]меньше[/IF2]
    
    Вопрос: можно ли (если да, то каким образом) избежать исполнения самого пхп скрипта используя макросы [IF2][CHARCOUNT] и [CHECKENTRY2] , когда просто нужно подсчитать количество символов не приводя в исполнение сам PHP_SCRIPT?
     
    Последнее редактирование: 14 июл 2019
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.651
    Город:
    Riga
    Одна из границ оказывается пустой при таком отчете в логе. Стоит надстроить проект..

    Как спарсить проблемный сайт полностью:
    1. В доп.настроке границ ctrl+4 отметьте пункт "обязательно" для границы например наименование или артикула.
    2. В главной панеле программы выберите режим сохранения документа "дозаписывать" Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    3. В настройках автоматизации ctrl+u отметьте повторное обращение к странице если с первого раза не удалось Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    4. В настройках фильтров ctrl+r укажите путь до текстовика куда будут записываться удачно спарсенные документы Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    5. Перед парсингом сохраните проект со списком ссылок и запускайте, повторный запуск точно допарсит что пропустило в первый раз.

    п.с. данные рекомендации полезно для парсинга проблемных сайтов.
     
    Root нравится это.
Similar Threads
  1. yuriktekhex
    Ответов:
    12
    Просмотров:
    1.267
  2. jozess
    Ответов:
    12
    Просмотров:
    692
  3. TeslaCo
    Ответов:
    10
    Просмотров:
    401
  4. Felix_b
    Ответов:
    5
    Просмотров:
    176
  5. kofe
    Ответов:
    8
    Просмотров:
    282
Загрузка...

Поделиться этой страницей