Парсинг контента по вложенной ссылке

Тема в разделе "Решение различных задач по парсингу", создана пользователем Marat1983, 13 мар 2019.

  1. Marat1983

    Marat1983 New Member Пользователи

    Регистрация:
    8 ноя 2018
    Сообщения:
    4
    Город:
    Оренбург
    Есть страница сайта со списком ссылок. При переходе по этим ссылкам открываются страницы содержащие ссылки на страницы с необходимым контентом.
    т.е. CD нужно:
    1. Собрать со страницы все ссылки №1 по определенному шаблону
    2. Перейти по каждой ссылке №1 и спарсить ссылки №2
    3. Перейти по каждой ссылке №2 и спарсить контент

    Есть ли возможность автоматизировать данный процесс? Можно ли сделать это если до контента нужно будет сделать еще одну (несколько) итераций и собрать ссылки №3, 4 и т.д?
    Как автоматизировать сбор такого контента?
     
  2. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    356
    Я бы реализовал это через несколько проектов.

    Ознакомьтесь с материалами системы помощи:
    * Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    * Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    * Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    * Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  3. Marat1983

    Marat1983 New Member Пользователи

    Регистрация:
    8 ноя 2018
    Сообщения:
    4
    Город:
    Оренбург
    Пока я собственно так и сделал, но мне кажется есть возможность автоматизировать это. Быть может это можно сделать при помощи "загрузка ссылок перед парсингом контента"?
     

Поделиться этой страницей