Парсинг лонгридов

Тема в разделе "Решение различных задач по парсингу", создана пользователем Duck83, 23 мар 2020.

  1. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Интересует, как можно реализовать парсинг контента с так называемых лонгридов, где статьи подгружаются одна за другой, когда прокручиваешь страницу вниз? Возможно данный вопрос уже поднимался в других топиках (я не нашел), буду рад ссылке.

    Update 1: разобрался при помощи WBApp скроллинга, однако, получается спарсить не все необходимые элементы, например, на конкретной странице их 5 (на всех по разному), но парсится только 2 элемента. Выбираю в WBApp скроллинг вниз + взять получившийся html код к парсингу.

    Update 2: задачу решил.
     
    Последнее редактирование: 23 мар 2020
    Root нравится это.
  2. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Дабы не плодить темы, спрошу в этом топике: при помощи макроса [HTMTOTXT] можно задавать тэги, которые нужно оставить при парсинге, а как задать тэги, контент между которых, не нужно парсить? Документ парсится будучи в обязательном тэге, в котором в то же время находятся мусорные тэги, и отключая основной, не возможно спарсить контент, от этого и придумываю такой вот костыль.
     
  3. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Никак не выходит произвести поиск/замену при парсинге контента. До последнего обновления программы все работало и было понятно. Сейчас для меня не ясно, почему в редакторе поиска/замены необходимая формула работает, но при парсинге не срабатывает. Использую, как рег выражения по всем правилам, так и обычную замену.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    И опять всему виной обновления.

    Ссылки недоступны для гостей
     

Поделиться этой страницей