Парсинг сайтов с редиректом

Тема в разделе "Решение проблем с использованием программы", создана пользователем Duck83, 22 апр 2019.

  1. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Пробую спарсить ссылки/контент с сайта, который к себе пускает только ботов, людей редиректит на партнерку. Выставляю юзер агенты ботов, однако, html код в браузере предпросмотра cd выдает код страницы иного ресурса (на который ведет редирект), а визуальный просмотр сайта показывает реальный контент, который мне и нужен. Подскажите, как правильно настроить cd чтобы победить редирект?
     
  2. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Без ссылки не понять о чем речь

    Браузер предпросмотра CD , если мы правильно друг друга понимаем, не учитывает передачу заголовков, которые Вы передаете через CD
     
  3. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Оказывается парсить нужно было без "Ссылки недоступны для гостей". Не ясно почему так, до этого парсил урлы только c приставкой http. Опять-таки, почему-то парсит первые 50 ссылок и все.
     
    Последнее редактирование: 22 апр 2019
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Возможно сайт временно банит за частые запросы. Попробуйте парсить в 1 поток с подбором паузы между запросами. Если не поможет, используйте прокси.
     
  5. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Все получилось, спасибо.
     
    Последнее редактирование: 23 апр 2019
    Root нравится это.

Поделиться этой страницей