Поиск по сайту по ключевым словам и парсинг выдачи

Тема в разделе "Решение различных задач по парсингу", создана пользователем MaximF, 21 авг 2018.

  1. MaximF

    MaximF Member Пользователи

    Регистрация:
    13 апр 2018
    Сообщения:
    28
    Город:
    Moscow
    Привет. Есть сайт, в котором есть поиск. Также имеется файл с ключевыми словами, которые нужно прогнать через этот поиск и получить ссылки на результаты, которые нужно впоследствии обработать. Это не парсинг поисковых систем, но типа того получается.

    Куда копать? :)
     
  2. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    401
     
    inotoxic и kagorec нравится это.
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    В сторону "правильного оформления темы".
     
    inotoxic и xLime нравится это.
  4. MaximF

    MaximF Member Пользователи

    Регистрация:
    13 апр 2018
    Сообщения:
    28
    Город:
    Moscow
    Ок, давайте распишу более подробно.

    Смотрите - есть сайт pornhub.com. У меня есть список ключевых слов. У них есть поиск по сайту, через который можно искать ролики.

    Файл с ключами - обычный .txt, там десятки тысяч ключей.

    Задача: взять ключ из файла, вбить его в поисковую строчку, получить ответ в виде нескольких роликов. Это будут урлы на страницы этих видео. Затем нужно зайти на каждую страницу и спарсить по шаблону из исходного года embed, duration и ссылку на тумбу. Все это есть в коде видео.

    И так пройтись по всем имеющимся в .txt ключам.

    Вопрос: возможно ли это сделать с КД (у меня ультимейт версия) или же не стоит заморачиваться и использовать для этого другие инструменты? Если возможно, то хотелось бы понять примерный алгоритм действий. Если заморочено именно с КД это делать - то буду искать другие пути решения.
     
  5. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    Можно через wbapp реализовать. Читать файл с ключами, вводить ключ в форму поиска, далее парсить выдачу.
    Можно взять url из браузера, после того как отправите запрос с ключом, и посмотреть как формируется ссылка. Далее генерировать ссылки. Парсить выдачу.
    Пошаговая реализация каждого из предложенных вариантов описана - Ссылки недоступны для гостей

    P.S. Если, что не понятно. Можно реализовать на платной основе.
     
  6. MaximF

    MaximF Member Пользователи

    Регистрация:
    13 апр 2018
    Сообщения:
    28
    Город:
    Moscow
    О какой сумме идет речь? За инфу благодарю, почитаю.
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Активируйте в ctrl+h обработку DOM для контент и сканер.
    Сначала Ссылки недоступны для гостей чтоб получить ссылки вида
    Код:
    https://www.pornhub.com/video/search?search={key}
    Передайте список в сканер и приступайте к сбору ссылок пагинаций от кажого кея.

    п.с. пример проекта приложен.
     

    Вложения:

    MaximF и xLime нравится это.
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Последнее редактирование: 21 авг 2018
  9. MaximF

    MaximF Member Пользователи

    Регистрация:
    13 апр 2018
    Сообщения:
    28
    Город:
    Moscow
    Спасибо, я знаю про эти дампы, но там ИХ кеи, а не мои :) А мне нужно именно парсинг сайта по моим ключам.

    Буду пробовать разобраться :)
     

Поделиться этой страницей