Парсинг файлов mans.io

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем webstep, 27 июл 2021.

  1. webstep

    webstep Member Пользователи

    Регистрация:
    6 дек 2020
    Сообщения:
    129
    Город:
    Kiev
    Всем привет.
    Писал в менеджер заказов, за три дня глухо. Думаю напишу на форуме.

    Есть сайт mans.io . Он содержит много файлов разного формата ( pdf , jpeg и др)
    Зайдя на конкретную страницу инструкции на сайте мы можем либо скачать инструкцию либо смотреть онлайн.
    Нам нужно скачать.
    Чтобы скачать - сайт перекидывает на ссылку - Ссылки недоступны для гостей ( как пример. все ссылки идут подряд . просто перебор цифр.)
    На этой странице просит нажать для получения ссылки для скачивания или же ввести капчу. Капчу просит когда подозрительный айпи. В основном с первого раза не просит.
    Суть в том что нужно достать ссылки для скачивания для всех файлов на сайте.
    Есть лимит скачиваний на 1 Ip - 5 файлов в сутки.

    Вкратце что я использовал - я взял мобильные прокси ( смена IP адреса каждый 2 минуты) и просто настроил WBappCEF на кликания по ссылках. Слишком маленькая скорость. И часто выкидывает капчу ( стоит условия что если капча то перекачивать страницу с другим айпи).
    В час выходит примерно 200 ссылок . Это в 2 потока и 10 динамических прокси.
    Думаю что можно запросами решить, но сам не сильно понимаю.
     
  2. masrub

    masrub Well-Known Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    194
    Ссылки такого вида Ссылки недоступны для гостей достать? Они вроде бы меняются, они не статические. Т.е ссылку получил и скачал.
     
  3. webstep

    webstep Member Пользователи

    Регистрация:
    6 дек 2020
    Сообщения:
    129
    Город:
    Kiev
    да , всё верно. Сразу скачивать буду.
     

Поделиться этой страницей