Неявный редирект

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем artproma, 21 фев 2014.

  1. artproma

    artproma New Member Пользователи

    Регистрация:
    3 фев 2013
    Сообщения:
    32
    Столкнулся с проблемой.
    Задача спарсить сайт.
    при парсинге выяснилось, что на сайте есть страницы, которые имеют неявный редирект.
    Т.е. страница отвечает кодом 200, а сама редиректом уходит на главную
    Пример такой страницы Ссылки недоступны для гостей

    Программа парсит данную страницу, как бы до выполнения редиректа.
    В итоге получается: если я хочу убрать эти позиции из прайса, то мне придется руками проверять 5500 страниц.

    Есть ли возможность поставить некую паузу, чтоб редирект отработал?
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    на вкладке Контент, обвел красным 1 сек = 1000
     

    Вложения:

    • pause.jpg
      pause.jpg
      Размер файла:
      9,3 КБ
      Просмотров:
      30
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Варианты:
    1. Обращаетесь к странице товара и этого товара нету тогда редиректит на главную - такое в итоге не спарсит поскольку информации нет о товаре - включите обработку dom (вроде редирект через яваскрипт)
    2. Если игнорировать редирект то парсеру получаем код с описанием товара по сути уже неактуальное - оставьте как есть настройки потоков и пауз

    п.с. поправьте если не так понял задачу
     
    Последнее редактирование: 21 фев 2014

Поделиться этой страницей