Как парсить многостраничную статью и склеить ее в одну ячейку в CSV

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем eugen, 7 ноя 2016.

  1. eugen

    eugen Member Пользователи

    Регистрация:
    1 фев 2014
    Сообщения:
    35
    Кол-во страниц в статьях может быть разное. Т.е. надо динамически считывать сколько страниц имеет статья и парсить с каждой страницы. В итоге должна получится одностраничная статья.
    Не могу понять как лучше реализовать... Буду благодарен за помощь.
    Пример тут:
    Ссылки недоступны для гостей
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Использовать связку макросов шаблона вывода [GENERATE] + <GETMORECONTENT>
    [GENERATE][FROM]2[/FROM][TO]<CD_GRAN_5!>[/TO][INC]1[/INC][SEP]{br}[/SEP]<GETMORECONTENT><URL="...[VARIABLE]..."><START=""><STARTCOUNT="0"><END=""><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>[/GENERATE]

    С уважением к вам, Сергей.
     

    Вложения:

    Shotlandec1980 нравится это.
  3. eugen

    eugen Member Пользователи

    Регистрация:
    1 фев 2014
    Сообщения:
    35
    Прошу прощения, а как выглядело бы решение вот для этого сайта. Например, эта статья:
    Ссылки недоступны для гостей
    Тут 4 страницы. Как поределить последнюю страницу? Класса или айди у последней ссылки нет.
    И могли бы вы подсказать как бы выглядело решение для этого сайта по парсингу и склеиванию статьи?
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    На странице 4 последняя статья , внизу текеста подцепите границей и уграницы используйте инверсию
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей (Размножение строки с использованием в ней нарастающей целочисленной переменной ([GENERATE]))
    Ссылки недоступны для гостей 2016-11-08_04-31-41.png
     
    Shotlandec1980 и kagorec нравится это.
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    [GENERATE][FROM]2[/FROM][TO]<CD_GRAN_1!>[/TO][INC]1[/INC][SEP]{br}[/SEP]<GETMORECONTENT><URL="[SELF]&page=[VARIABLE]"><START="<!-- end A --> "><STARTCOUNT="0"><END=" <!-- A generated by theme --> "><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>[/GENERATE]
     
    napserious, Kreol и kagorec нравится это.
  7. eugen

    eugen Member Пользователи

    Регистрация:
    1 фев 2014
    Сообщения:
    35
    Супер, спасибо!
     
    Root нравится это.
  8. TIIIMOXAN

    TIIIMOXAN New Member Пользователи

    Регистрация:
    12 авг 2011
    Сообщения:
    29
    Здравствуйте!

    А если в коде страницы не отображается номер последней страницы? Т.е. изначально в пагинации выводится 5 ссылок на страницы (1,2,3,4,5), а при переходе на 5-ую страницу добавляются еще 2 ссылки на страницы (3,4,5,6,7).

    Пример:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10 постов.**
    upload_2020-1-5_0-27-50.png
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Вам нужно ознакомиться с материалами системы помощи.

    Ссылки недоступны для гостей
     
    TIIIMOXAN нравится это.
  10. TIIIMOXAN

    TIIIMOXAN New Member Пользователи

    Регистрация:
    12 авг 2011
    Сообщения:
    29
    Да, с этим я также ознакомился, спасибо. Но у меня при работе макроса (GETMORECONTENT (LOOP Mode) на страницах пагинации циклов LOOP выводится полностью код веб-страницы, т.е. мой шаблон срабатывает только для первой страницы, а для пагинаций нет. Поэтому и начал копать в сторону [GENERATE]. Проект для наглядности прикрепил.

    Также возник вопрос, если в настройках программы стоит задержка парсинг в 5000-7000 мс, GETMORECONTENT также работает с задержкой?
     

    Вложения:

    Последнее редактирование: 8 янв 2020

Поделиться этой страницей