Пропуск ячеек при парсинге

Root · 12 фев 2020

Проект вроде как уже настроен. Он должен парсить данные.

При предпросмотре результатов парсинга HTML, загружаемый макросом GETMORECONTENT, можно анализировать в соответствующей вкладке окна предпросмотра. При парсинге - нет (такой задачи не стояло).

Как находил код при парсинге расписывать не буду, так делал для этого "специальную версию".

Serheo · 12 фев 2020

Root сказал(а): ↑

Проект вроде как уже настроен. Он должен парсить данные.

При предпросмотре результатов парсинга HTML, загружаемый макросом GETMORECONTENT, можно анализировать в соответствующей вкладке окна предпросмотра. При парсинге - нет (такой задачи не стояло).

Как находил код при парсинге расписывать не буду, так делал для этого "специальную версию".
Нажмите, чтобы раскрыть...

Так. Пошли секретики. Но за помощь все равно ОГРОМНОЕ спасибо! А то я все стандартные методы обхода попробовал и ни один не помог.

Root · 12 фев 2020

Пожалуйста.

Serheo · 13 фев 2020

Я конечно дико извиняюсь, но даже с продвинутыми настройками границ сайт продолжает отдавать "дырки".

Root · 13 фев 2020

Что требуется от меня?

Serheo · 14 фев 2020

Root сказал(а): ↑

Что требуется от меня?
Нажмите, чтобы раскрыть...

Ну это как-бы пожелания. GETMORECONTENT - хорошая штука, но он работает совершенно "втемную". Логов не, ссылок типа <CD_DOCURL!> - нет. По обычным границам я бы давно уже это все по логам и таблице вычислил, да перепарсил бы битые данные, а вот с GETMORECONTENT у меня такого инструмента нет. А ведь не плохо бы иметь такой параметр, чтоб при проверке через IF-граница пустая можно было бы сохранить в файлик хотя бы ссылочку на проблемную страничку.

Короче нужно логирование GETMORECONTENT. Без него вот такие танцы с бубном выходят.

UPD Хотя тут даже логирование не поможет, т.к. важно сведение вместе данных, полученных от GETMORECONTENT и обычных границ. В данном случае поможет макрос типа <CD_DOCURL!>, но только для GETMORECONTENT. Тогда можно все ссылки вывести в таблицу результатов, а затем эти дырки просто перепарсить. Там уже будет делом техники как это проще сделать.

UPD 2 Блин, чояпишу... Чот я не выспался. Какой <CD_DOCURL!>??? Ссылку в GETMORECONTENT я ж сам передал. Ну собсна как отдал - так и взял обратно. Проблема решена.

Root · 14 фев 2020

Нет смысла ради одного такого сайта делать логи для GETMORECONTENT при парсинге.

Добавил в проект конструкцию, которая проверит, вернул ли GETMORECONTENT данные. Если не вернул, запустит макрос ожидания и перезапустит парсинг WEB-документа.
Код:
...[IFNIL2]<GETMORECONTENT><URL="https://www.batterika.ru/[VALUE]"><START="<div class={"}article{"}>Код товара: "><STARTCOUNT="0"><END="<"><ENDCOUNT="0"><PARAMS="utf-8"></GETMORECONTENT>[ELSE][WAIT:10000][RELOADDOCUMENT][/IFNIL2]...

Serheo · 14 фев 2020

Root сказал(а): ↑
Нет смысла ради одного такого сайта делать логи для GETMORECONTENT при парсинге.

Добавил в проект конструкцию, которая проверит, вернул ли GETMORECONTENT данные. Если не вернул, запустит макрос ожидания и перезапустит парсинг WEB-документа.
Код:
...[IFNIL2]<GETMORECONTENT><URL="https://www.batterika.ru/[VALUE]"><START="<div class={"}article{"}>Код товара: "><STARTCOUNT="0"><END="<"><ENDCOUNT="0"><PARAMS="utf-8"></GETMORECONTENT>[ELSE][WAIT:10000][RELOADDOCUMENT][/IFNIL2]...
Нажмите, чтобы раскрыть...
Ну во у меня как раз и была идея про IF, только я не знал, что можно именно таким образом проверить GETMORECONTENT на пустоту. Спасибо, ОГРОМНОЕ!

Root · 14 фев 2020

Пожалуйста.

Войти или зарегистрироваться

Пропуск ячеек при парсинге

Root Администратор Администратор

Serheo Well-Known Member Пользователи

Root Администратор Администратор

Serheo Well-Known Member Пользователи

Root Администратор Администратор

Serheo Well-Known Member Пользователи

Root Администратор Администратор

Вложения:

batterika_ru_3_12.cdp

Serheo Well-Known Member Пользователи

Root Администратор Администратор

Пропуск цикла повторяющейся границы

пропуск строк

Программа пропускает ссылки при парсинге

Игнорирование/пропуск/не скачивание картинки-заглушки (no image)

Происходит пропуск некоторых товаров при парсинге

Поделиться этой страницей

Войти или зарегистрироваться

Пропуск ячеек при парсинге

Root Администратор Администратор

Serheo Well-Known Member Пользователи

Root Администратор Администратор

Serheo Well-Known Member Пользователи

Root Администратор Администратор

Serheo Well-Known Member Пользователи

Root Администратор Администратор

Вложения:

batterika_ru_3_12.cdp

Serheo Well-Known Member Пользователи

Root Администратор Администратор

Пропуск цикла повторяющейся границы

пропуск строк

Программа пропускает ссылки при парсинге

Игнорирование/пропуск/не скачивание картинки-заглушки (no image)

Происходит пропуск некоторых товаров при парсинге

Поделиться этой страницей

Быстрый поиск