GETMORECYCLECONTENT: Пустой результат парсинга

Тема в разделе "Решение различных задач по парсингу", создана пользователем VitalyTR, 27 июн 2018.

  1. VitalyTR

    VitalyTR New Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    21
    Город:
    Минск
    Вот такой текст:
    [GETMORECYCLECONTENT]Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! [START]<div class="pv-recent-activity-detail__outlet-container">[/START][END]<img class="third-party-tracking-pixel hidden ember-view" id="ember{skip}" src="images/setuid-partner-google-amp;_t-11111111111111.jpg">[/END]
    <CD_GRAN_1!>[CSVCS]<CD_GRAN_2!>[CSVCS]<CD_GRAN_3!>[CSVCS]
    [/GETMORECYCLECONTENT]

    WBApp подгружает страницу, отдает ее код обратно в CD - и должен запуститься парсинг.
    Но в приведенном примере в логах - файл не сохранен: результирующий документ оказался пустым.

    При этом проект
    <CD_GRAN_1!>[CSVCS]<CD_GRAN_2!>[CSVCS]<CD_GRAN_3!>[CSVCS]
    парсится отлично, все данные соответствуют.
    Но там на странице может быть от 1 до <много> однотипных блоков - я решил, что это как раз случай использования GETMORECYCLECONTENT
    P.S. Описание Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! прочитано много раз :(
     
  2. VitalyTR

    VitalyTR New Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    21
    Город:
    Минск
    Вот страница, которую пробую спарсить:
    upload_2018-6-27_12-24-7.png
    Данных для CD_GRAN_1 не видно, в них помещается собственные мысли того, кто постит.
    CD_GRAN_2 - ссылка на приаттаченный документ
    CD_GRAN_3 дата, когда опубликован пост

    И, как видно на скриншоте, таких блоков может быть достаточно много. Вот каждый такой блок мне в виде отдельной строки в CSV и надо поместить.
     

    Вложения:

  3. VitalyTR

    VitalyTR New Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    21
    Город:
    Минск
    Этот вопрос решен дней 10-12 назад.
    Модераторы, удалите тему, плз!
     
  4. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    314
    В случае если вы нашли решение по теме, хорошим тоном считается написать это решение. На форуме темы не удаляются, если они не нарушают правила.
     
    VitalyTR и Kreol нравится это.
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.119
    Там скорее всего галка контент нужна была
     
  6. VitalyTR

    VitalyTR New Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    21
    Город:
    Минск
    Насчет удаления понял, логично.

    По поводу нахождения решения абсолютно верно, надо публиковать - только у меня тут (уже при задании вопроса) изначальный посыл был неверный. Но ок:
    Все это решается за счет повторяющихся границ парсинга, в которую вложены постоянные границы.
    upload_2018-7-9_20-44-27.png
    То есть просто не надо было никакого [GETMORECYCLECONTENT] - однотипные блоки описывались показанной на скриншоте конструкцией.

    А замены типа emberANY, urnANY - делались на основе макроса {skip} (мой топик http://forum.sbfactory.ru/threads/p...it-posledovatelnost-simvolov.6641/#post-38449 )
     
    xLime нравится это.

Поделиться этой страницей