С сайта rusprofile получаю неправильные ответы

Тема в разделе "Решение проблем с загрузкой WEB-страниц", создана пользователем JagerJ, 2 янв 2021.

  1. JagerJ

    JagerJ Member Пользователи

    Регистрация:
    8 фев 2017
    Сообщения:
    42
    Всем привет!
    Пытаюсь парсить rusprofile. В результате работы попадаются такие строки, в которых на разные УРЛ источников получаю один и тот же ответ сайта. Я так понимаю где-то кешируется документ. Но причину никак не могу понять. Или донор таким образом блокирует мои обращения...
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! - донор
    Вот, например,
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! - УРЛ источника (ООО "Стрежень"),
    а в результирующую строку я получаю данные с урла Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! (Администрация ГО Балашиха)
    Возможно неправильно использую макрос <GETMORECONTENT> ?
    Такое случается только только во время парсинга большого количества ссылок. Когда собираю данные с небольшого списка ссылок - все собирается нормально.
     

    Вложения:

  2. JagerJ

    JagerJ Member Пользователи

    Регистрация:
    8 фев 2017
    Сообщения:
    42
    Я так понял, это вообще случайный выбор донора - у меня в списке не было ссылки на Администрацию ГО Балашиха. И в других случаях та же ситуация: мне сайт выдает случайные данные, а не со списка ссылок. (((( Может кто сталкивался и есть дельный совет?
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.353
    Город:
    Барнаул
    Здравствуйте.

    Некоторые сайты отслеживают частые запросы к ним с одного IP.

    Попробуйте парсить в 1 поток либо использовать список прокси.
     
  4. JagerJ

    JagerJ Member Пользователи

    Регистрация:
    8 фев 2017
    Сообщения:
    42
    Так и пробую делать. Бесплатные прокси не панацея - все равно случается такая путаница, но подчищаю результат в екселе и нормально.
     

Поделиться этой страницей