Парсинг страницы "до победного" в случае не возможности загрузки страницы

Тема в разделе "Функции и интерфейс программы", создана пользователем strelkovandrey, 21 окт 2017.

  1. strelkovandrey

    strelkovandrey Member Пользователи

    Регистрация:
    17 дек 2016
    Сообщения:
    28
    Добрый день, подскажите пожалуйста
    Парсю сайт который в силу своей специфики иногда падает, и соответственно в логах пишется, что ссылка пропускается, можно ли как то настроить так, чтобы если ошибка произошла, то программа пыталась и пыталась пока у неё не получится достучаться до страницы?
     
  2. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    401
    Добрый день.
    Ctrl+h
    "Количество попыток загрузки страниц"
    "Тайм-аут между загрузками"
     
    napserious, Root и kagorec нравится это.
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Для не быстрых сайтов и/или когда парсинг происходит через небыстрые proxy, рекомендую внести в проект такие настройки:
    1. В ctrl+h указываем тайминг ожидания загрузки страницы 50000, попыток загрузки 3 раза Ссылки недоступны для гостей
    2. В ctrl+u указываем повторную попытку обращения если страница не ответила положительно при первых обращениях Ссылки недоступны для гостей
    3. В ctrl+t указываем путь к файлу с ранее загруженными ссылками Ссылки недоступны для гостей
     
    napserious, xLime и Root нравится это.
  4. strelkovandrey

    strelkovandrey Member Пользователи

    Регистрация:
    17 дек 2016
    Сообщения:
    28
    Большое спасибо, заработало как нужно!
     
    Root нравится это.
  5. d19codec

    d19codec New Member Пользователи

    Регистрация:
    6 ноя 2015
    Сообщения:
    19
    Ребят, а если страница всегда загружается, но сервер может выводить надпись "много обращений" вместо нужной мне инфы.
    Как сделать так, если на странице только строка "много обращений", чтобы страница повторно загружалась пока не будет этой фразы? или пока не будут найдены указанные границы парсинга.
    Спасибо.

    А много обращений не от меня, а от всех пользователей, ddos типа, поэтому смысла мне сокращать частоту обращений нет, наоборот чем чаще буду запрашивать, тем быстрее получу то что нужно.
     
  6. Mind

    Mind Well-Known Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    190
    А если Вы еще приведете пример ссылки, то может кто и поможет разобраться...
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Используйте связку макросов:
    [DOCSOURCE] (вывод кода WEB-страницы)
    [CHECKENTRY] (проверка наличия вхождения в коде и выполнение действий в зависимости от этого)
    [RELOADDOCUMENT] (повторный парсинг WEB-документа)
     

Поделиться этой страницей