Блокирует сайт при парсинге отзывов со страниц

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Skandar, 3 июн 2012.

  1. Skandar

    Skandar New Member Пользователи

    Регистрация:
    13 апр 2012
    Сообщения:
    9
    Есть ссылки вида www.otzyv.ru/read.php?id=138773
    Передал куки.
    Задал границы вида: </table></noindex> - </font>
    Т.е. что бы парсился только сам текст из отзыва.

    Видимо там ограничение на одновременные подключения - страницы перестают открываться. Поэтому выставил 1 поток с паузой 5000.

    Но парсятся пустые сраницы, хотя при выставлении границ код содержимого сраницы отображается.
     
    Последнее редактирование модератором: 4 июн 2012
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Используйте прокси. Посмотрите вот эту тему "Прокси"
     
  3. Skandar

    Skandar New Member Пользователи

    Регистрация:
    13 апр 2012
    Сообщения:
    9
    Даже при использовании AOR и задержки в 20 сек - пустые файлы.
     
    Последнее редактирование: 4 июн 2012
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Через Avor все парсит прекрасно, кстати и не нужно указывать паузы!
    В парсере кнопка "Дополнительно" укажите там где user agent Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    И 5 потоков без паузы.
    Теперь включите Avor и попробуйте с такими настройками HTTP
    [​IMG]

    п.с. не забудьте в Авор-е указать процесс Content Downloader
     
  5. Skandar

    Skandar New Member Пользователи

    Регистрация:
    13 апр 2012
    Сообщения:
    9
    UPD.

    Даже при таких настройках пустые страницы парсятся
     
    Последнее редактирование: 6 июн 2012

Поделиться этой страницей