Проблема с парсингом сайта razborkino.ru

Тема в разделе "Решение различных задач по парсингу", создана пользователем yans01, 11 май 2018.

Метки:
  1. yans01

    yans01 New Member Пользователи

    Регистрация:
    28 мар 2018
    Сообщения:
    18
    Город:
    Бишкек
    При парсинге данного сайта, прокси сервера (прокси качественные, платные) банятся почти сразу, например при 20 потоках (и даже на 2-х потоках), и с задержкой 10000 - 20000 (и больше). Может у кого нибудь, есть опыт преодоления данной проблемы. Если есть, то поделитесь. Заранее благодарен.
     
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.663
    Город:
    Сочи
    Здравствуйте.

    Какое количество прокси в вашем списке?
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.243
    Добавьте список Useragents (ссылка на тему в подписи) в ctrl+h
     
  4. yans01

    yans01 New Member Пользователи

    Регистрация:
    28 мар 2018
    Сообщения:
    18
    Город:
    Бишкек
    Пробовал от одного до нескольких сотен и даже тысяч. На разных количествах потоков с разными задержками
     
  5. yans01

    yans01 New Member Пользователи

    Регистрация:
    28 мар 2018
    Сообщения:
    18
    Город:
    Бишкек
    Добавлял. Иногда помогает, иногда нет
     
  6. Джо

    Джо New Member Пользователи

    Регистрация:
    20 дек 2015
    Сообщения:
    10
    Город:
    Курск
    Думаю, что есть, и для этого сайта тоже подойдет. Если интересны подробности, как именно дошел до этого эмпирическим путем, - распишу.

    Что имеем по факту: парсинг с одним юзер-агентом и без необходимости использования платных прокси, на максимальном кол-ве потоков и с минимальными задержками.

    Алгоритм действий:
    1) берем пачку публичных прокси. Я брал по несколько сотен тупо из поиска в гугле или свежесбор из своего Хрумера, который все равно параллельно выполняет свои задачи, постоянно обновляя списки акутальных паблик прокси. Прокси лучше сразу чекнуть в программе на валидность, Примерно 90% свежих пабликов, как правило, еще рабочие.
    2) Машину, с которой будем парсить, к инету обязательно подключаем через 3G или 4G - модем оператора мобильной связи, выдающего новый IP, т.е. динамический, при каждом новом подключении.

    Лично у меня - 4G Yota. IP раздает из одной или соседних подсеток, повторяющихся не видел, в заспамленности замечены не были, по крайней мере, по нужным мне ресурсам, все с привязкой к Мск. В общем, полная красота. Обеспечиваем периодическое переподключение модема программными или аппаратными средствами, у меня - раз в 3-5 мин, как золотая середина, по необходимости, в ту или иную сторону время переподключения корректируем. Или морально готовимся делать переподключение вручную, если иначе никак. Выставляем макс. кол-во потоков, я ставил 1 - без ограничений, так понимаю, 200 потоков в моем случае, и задержки приличия ради 10-50мс. Можно и без них, 0мс поставить. Запускаем парсинг, радуемся скорости.

    Не забываем, что в случае исчерпания валидных прокси или несмененном вовремя модемом IP быстро наступит неизбежный бан. Через веб-интерфейс может и не режектить 403 ошибкой, но потоки упадут в 0 и пока не подбросим свежих прокси или свежий IP, в зависимости от причины получения бана, парсинг не продолжится. Почему так работает параллельно в связке прокси + динамические IP, а по отдельности, даже с супер-пупер приватными прокси или белыми и незаспамленными IP, наступает неизбежный бан даже в унизительном режиме в 2 потока и 20000-50000мс задержкой, - вопрос не ко мне.

    Интереса ради, могу прогнать в таком режиме по вашему шаблону, после показав результаты производительности при парсинге данным методом.
     
    Последнее редактирование модератором: 30 май 2018
  7. yans01

    yans01 New Member Пользователи

    Регистрация:
    28 мар 2018
    Сообщения:
    18
    Город:
    Бишкек
    Спасибо за ответ. Почти все, что ты предлагаешь я пробовал. Исключение составляет только то, что я менял свой IP в ручную. Понятно, что с гораздо большим интервалом времени, нежели 3-5 мин. Еще раз спасибо, тебе за ответ и желание помочь.
     
  8. Джо

    Джо New Member Пользователи

    Регистрация:
    20 дек 2015
    Сообщения:
    10
    Город:
    Курск
    Да не за что. Помимо смены IP вручную (исключительно вопрос удобства и комфорта при парсинге), обязательно должны быть включена работа через список валидных прокси. Все другие варианты - бан. При этом, нужно быть уверенным, что ваши IP не находятся в бане у ресурса, который вы парсите. Некоторые IP могут режектиться ресурсами из-за территориальной привязки: политика доступа к некоторым сайтам. Это тоже нужно иметь ввиду. Парсинг с такими динамическими IP тоже приведет к бану.

    Я почему подчеркиваю эти тонкости, поскольку сам годами на некоторых спец. и закрытых форумах читаю как парсят или спамят люди, но не помню, чтобы кто-то применял 2-х слойный метод. Обычно это прокси, соксы, (паблик, приват, с авторизацией и без), тор, впн, динамические IP, пул собственных IP - но всегда без параллельно работающего другого способа. Т.е., менять одновременно IP в программе и IP машины, на которой установлена программа и через которую осуществляется выход в интернет, причем, меняющиеся IP машины и программы - всегда разные и не совпадают между собой - такого не припомню.

    Ну и опять же, если есть желание, давайте сам прогоню интереса ради. Сам проект для меня неинтересен и бесполезен, но без него я не смогу проверить, работает ли этот метод против бана при парсинге данного сайта или нет
     
    Последнее редактирование модератором: 30 май 2018
  9. yans01

    yans01 New Member Пользователи

    Регистрация:
    28 мар 2018
    Сообщения:
    18
    Город:
    Бишкек
    Еще раз спасибо за участие. В прикрепленном файле компания для razborkino.ru. (фото, я не скачиваю, а выгружаю только ссылки на них)
     
  10. Джо

    Джо New Member Пользователи

    Регистрация:
    20 дек 2015
    Сообщения:
    10
    Город:
    Курск
    Прикрепленного файла не видно
     

Поделиться этой страницей