Можно ли собрать данные с страниц с ответом 404 или др. ошибок?

drvoodoo · 16 авг 2017

Суть проблемы такова...
Есть страницы которые содержать полезную для меня информацию но дают ответ 404. Соответственно парсер либо пропускает такую страницу либо останавливает парсер (зависит от настроек).
Можно ли это обойти?

Root · 16 авг 2017

Здравствуйте.

drvoodoo · 16 авг 2017

А что туда можно прописать? Где об этом можно прочесть?
Сейчас там прописано [RELOADDOCUMENT][WAITFORME] Это для отлова капчи.

Root · 16 авг 2017

Любые макросы шаблона вывода, какие вам нужны. Они сработают, если документ не загрузится.

drvoodoo · 17 авг 2017

Возможно я неправильно объяснил проблематику.

К примеру есть страницы:
Ссылки недоступны для гостей
Ссылки недоступны для гостей
Ссылки недоступны для гостей
Ссылки недоступны для гостей
Ссылки недоступны для гостей
и тд

у них ответ сервера 404, но они содержат полезную информацию заключенную в <h1>
Так как ответ сервера 404, парсер пропускает эту страницу. Выдаёт ("Программе не удалось загрузить WEB-страницу (HTTP/1.1 404 Not Found)" либо "Программе не удалось загрузить WEB-страницу (HTTP/1.1 429 Too Many Requests)" но при этом полезный контент на эти страницы выводиться)

Вопрос! Как научить парсер игнорировать ответ сервера и всё равно собирать с этой страницы данные?

Root · 17 авг 2017

Буду разбираться.

Root · 17 авг 2017

Скачайте и установите доработанную версию программы (в программе: главное меню - файл - центр обновлений -> кнопка "обновить программу/скачать обновленную сборку").

drvoodoo · 17 авг 2017

Root сказал(а): ↑

Скачайте и установите доработанную версию программы (в программе: главное меню - файл - центр обновлений -> кнопка "обновить программу/скачать обновленную сборку").
Нажмите, чтобы раскрыть...

В центре обновления пока ещё старая версия (Content Downloader X1 версии 11.1.0000230 (20.07.2017))

Root · 18 авг 2017

Не нужно ничего додумывать. Прочтите еще раз и сделайте, как написано:

Скачайте и установите доработанную версию программы (в программе: главное меню - файл - центр обновлений -> кнопка "обновить программу/скачать обновленную сборку").
Нажмите, чтобы раскрыть...

drvoodoo · 21 авг 2017

По результатам отработки предложных вами макросов, грузиться вся страница целиком. Возможно я не понял вашего намёка. Если несложно изложите хотя бы теорию что происходит тут:
<GETMORECONTENT><URL="[SELF][WBAPPMODE]"><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>
И в какую сторону дальше капать?
Спасибо заранее.

Root · 22 авг 2017

В документации макроса Ссылки недоступны для гостей указано, куда следует прописать начало и конец парсинга, чтобы брать только часть документа.

drvoodoo · 22 авг 2017

Огромное спасибо за помощь, вот теперь сама идея понятна. Ещё раз спасибо.

Root · 22 авг 2017

Также рекомендуется выставить эту опцию (чтобы WBApp вызывался в 1 поток, чтобы не пропускал данные, иногда могут не успеть подгрузиться):

И в идеале сделать это Ссылки недоступны для гостей

drvoodoo · 26 авг 2017

Появился дополнительный вопрос.
Сайт при длительном парсинье выдаёт разного рода ответы сервера 404, 429 и т.д. но при этом какой-то промежуток времени выдаёт полезный контент, в этой ситуации срабатывает условие "если документ не загрузился" (ctrl+6) мы продолжаем сбор полезных данных средствами макроса

<GETMORECONTENT><URL="[SELF][WBAPPMODE]"><START="<h1{skip}>"><STARTCOUNT="0"><END="</h1>"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>

но спустя какоето время ресурс выкидывает капчу.

Как можно проверить страницу на содержание капчи в случае если страница не загрузилась по причите ответа сервера 404, 429 и тд (срабатывает условие "если документ не загрузился" (ctrl+6) ).
Какую конструкцию макросов можете порекомендовать использовать для нахождения капчи и остановки процесса в подобной ситуации?

Root · 27 авг 2017

[CHECKENTRY] Ссылки недоступны для гостей

drvoodoo · 27 авг 2017

В условие "если документ не загрузился" (ctrl+6) [CHECKENTRY] не работает в связке с <GETMORECONTENT>
1. Страница не загрузилась, сработал ctrl+6
2. <GETMORECONTENT> получает контент и вырезает уже нужный материал

как применить [CHECKENTRY] в связке <GETMORECONTENT> ?

Root · 27 авг 2017

Зачем каждый шаг спрашивать.

drvoodoo · 27 авг 2017

Root сказал(а): ↑

Зачем каждый шаг спрашивать.
Нажмите, чтобы раскрыть...

Не подумайте что ради забавы. В CD столько всего, элементарно запутаться и пойти по ложному пути.
Спасибо за подсказку, буду дальше разбираться.

drvoodoo · 28 авг 2017

похоже я нашел глючёк в работе <GETMORECONTENT> в связке [CHECKENTRY2]
в документации к <GETMORECONTENT> сказано:
— Если макрос GETMORECONTENT вызывается несколько раз ПОДРЯД к одному и тому же адресу, то произойдет один запрос (для остальных будет загрузка кода WEB-документа из кеша);
и правда в случае с использованием макроса [CHECKENTRY] всё так и происходит, но как только используем [CHECKENTRY2] GETMORECONTENT обращается к странице несколько раз.

[CHECKENTRY2(recaptcha)]<GETMORECONTENT><URL="[SELF][WBAPPMODE(C:\content\prom\optimizing.wbapp)]"><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>[THENTEXT][WAITFORME][RELOADDOCUMENT][ELSETEXT]<GETMORECONTENT><URL="[SELF][WBAPPMODE(C:\content\prom\optimizing.wbapp)]"><START="<h1{skip}>"><STARTCOUNT="0"><END=" в Украине</h1>"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>[/CHECKENTRY2]

[DOCNAME]prom-keys-[CD_DATE_YY][CD_DATE_MM][CD_DATE_DD].csv[/DOCNAME]

ps Вся конструкция работает в условие "если документ не загрузился" (ctrl+6)

Войти или зарегистрироваться

Можно ли собрать данные с страниц с ответом 404 или др. ошибок?

drvoodoo Active Member Пользователи

Вложения:

test.cdp

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

Root Администратор Администратор

Вложения:

prom_ua.cdp

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

drvoodoo Active Member Пользователи

Можно ли вытащить данные с такой вот страницы?

Можно ли как-то собрать email?

Опять на LP получается коряво собрать данные

Нужно взять данные с нескольких страниц. Как это сделать?

WBApp брать данные из поля и сразу вставлять эти данные в другое поле, в цикле.

Поделиться этой страницей

Можно ли собрать данные с страниц с ответом 404 или др. ошибок?

drvoodoo Active Member Пользователи

Вложения:

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

Root Администратор Администратор

Вложения:

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

Root Администратор Администратор

drvoodoo Active Member Пользователи

drvoodoo Active Member Пользователи

Поделиться этой страницей

Быстрый поиск