Задача передать ссылки в Wbapp

Тема в разделе "Решение различных задач по парсингу", создана пользователем ivanstrekalov, 10 дек 2018.

  1. ivanstrekalov

    ivanstrekalov New Member Пользователи

    Регистрация:
    8 апр 2018
    Сообщения:
    17
    Город:
    Петербург
    Задача передать ссылки в Wbapp из повторяющейся границы и спарсить весь контент с этих ссылок в один файл.
    Пример:
    парсер проходит по ссылкам:
    ссылка1.html
    ссылка2.html
    ...
    ссылка100.html
    По списку ссылок парсер на каждой странце выбирает блок со ссылками.
    Ссылки имеют следующую структуру:
    ссылка1_1.html
    ссылка1_2.html
    ссылка1_3.html
    ссылка1_4.html
    Мы их забираем через повторяющиеся границы парсинга.
    Тут все понятно.
    Как передать каждую конкретную ссвылку ПОДРЯД в Wbapp (ссылка1_1.html -> ссылка1_2.html->ссылка1_3.html->ссылка1_4.html) и из каждой забрать часть кода, который надо сохранить в один файл?
    article1.txt (где есть части из ссылка1_1.html затем код из ссылка1_2.html затем код из ссылка1_3.html затем код из ссылка1_4.html )
    article2.txt (где есть части из ссылка2_1.html затем код из ссылка2_2.html затем код из ссылка2_3.html затем код из ссылка2_4.html )
    Буду благодарен за помощь. Пака что не представляю как это сделать.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  3. ivanstrekalov

    ivanstrekalov New Member Пользователи

    Регистрация:
    8 апр 2018
    Сообщения:
    17
    Город:
    Петербург
    Спасибо. [WBAPP(C:\Users\Sila\Desktop\CDDATATEST2.wbapp|Ссылки недоступны для гостей
    [CDDATA:1]<CD_CYCLE_GRAN_4!>[/CDDATA] - внутри будут ссылки через запятую.

    А WBapp будет ходить по ним по очереди Так:

    [REPEAT]
    [GO]:[CDDATA:links]
    [GETHTML]: <body>{get}</body>{get}|
    [/REPEAT]

    И весь контент массива ссылок сохраняется в один файл?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вы предоставляете решение и тут же спрашиваете результат его работы. Вам не кажется это нелогичным? Что вам мешает попробовать?
     
    ivanstrekalov нравится это.
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    И почему именно [WBAPP] для решения этой задачи.

    Проще и производительнее подгружать контент по ссылкам с помощью макроса GETMORECONTENT.
     
    Последнее редактирование: 11 дек 2018
  6. ivanstrekalov

    ivanstrekalov New Member Пользователи

    Регистрация:
    8 апр 2018
    Сообщения:
    17
    Город:
    Петербург
    У меня не ссылки на файлы, а вэбстраницы HTML с которых надо спарсить куски контента. И со всех вэбстраниц из повторяющихся границ все части соединить в 1 файл txt
     
    Последнее редактирование: 11 дек 2018
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ошибся, имел ввиду макрос GETMORECONTENT

    Ссылки недоступны для гостей
     

Поделиться этой страницей