Несколько GETMORECONTENT

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем omer21, 4 фев 2015.

  1. omer21

    omer21 New Member Пользователи

    Регистрация:
    4 фев 2015
    Сообщения:
    14
    Надо спарсить несколько границ с дополнительной страницы, запросов GETMORECONTENT получается 4, плюс один запрос GETMORECYCLECONTENT. Вся проблема в том что если запросов много, сайт выдает кнопку "Нажмите что бы продолжить". Это решается WBApp до начала выполнения всех макросов. т.к. запросов при выполнении много, сайт блокируется и часть запросов уходит "впустую". При предпросмотре все работает как положено, а вот при парсинге часть яйчеек пустые. Есть подобное решение http://forum.sbfactory.ru/showthread.php?p=16095, но никак не могу реализовать у себя. Можно конечно добавить еще одно выполнение WBApp, но страниц 23000, время тогда удвоится.
     
    Последнее редактирование: 4 фев 2015
  2. omer21

    omer21 New Member Пользователи

    Регистрация:
    4 фев 2015
    Сообщения:
    14
    Была бы в таких случаях полезна такая конструкция <GETMORECONTENT><URL=""><START(1)=""><STARTCOUNT="0"><END(1)=""><START(2)=""><STARTCOUNT="0"><END(2)=""><START(n)=""><STARTCOUNT="0"><END(n)=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT> т.е. несколько границ в пределах одного запроса.
     
    Последнее редактирование: 4 фев 2015
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Если есть несколько макросов GETMORECONTENT подряд и к одному URL-адресу, то запрос к этому адресу выполняется всего 1 раз (для последующих макросов GETMORECONTENT код WEB-документа берется из кеша).

    Пробуйте парсить в 1 поток (если парсите не в 1 поток).

    С уважением к вам, Сергей...
     
  4. omer21

    omer21 New Member Пользователи

    Регистрация:
    4 фев 2015
    Сообщения:
    14
    Спасибо за ответ, нет, работаю в один поток, WBApp все таки, буду искать ошибки в шаблоне вывода.
     
  5. omer21

    omer21 New Member Пользователи

    Регистрация:
    4 фев 2015
    Сообщения:
    14
    Все таки проблема в алгоритме программы. Сайт , с которого парсю, подсчитывает количество обращений. Если выполняется загрузка основной страницы то срабатывает WBApp и кнопка нажимается, а если бан попадает на загрузку GETMORECONTENT то данные не собираются, задержка в шаблоне не помогает. Если конечно только не выставить ожидание 60 сек, но при 26000 ссылок получается довольно большой срок парсинга. Было бы неплохо, если бы WBApp срабатывал и для дополнительных страниц GETMORECONTENT.
     

Поделиться этой страницей