Корректность использования прокси

Тема в разделе "Решение проблем с использованием программы", создана пользователем veh, 10 мар 2012.

  1. veh

    veh New Member Пользователи

    Регистрация:
    10 мар 2012
    Сообщения:
    8
    Приветствую всех!

    Решил спарсить сайт
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Но наткнулся на проблему - ограничение на количество скачанных картинок в сутки. Прога скачала 18 картинок, счетчик идет дальше а в папке images прибавления нет.

    Накопал список прокси - 150 штук (оставил только быстрые).
    В проге ввел кучу юзер-агентов.
    Но картинки не качаются.

    В дополнительных опциях поставил "не сохранять документы с битыми картинками"
    В логе парсинга вижу, что используются разные прокси и юзер-агенты. Но в статусе указано что типа битая ссылка.

    Решил проверить прокси.
    Зашел с другого бразуера на сайт.
    При попытке скачать картинку выдает, что я уже превысил лимит. Значит только смены юзер-агента недостаточно.
    Указал данному браузеру 1 из прокси-серверов. Зашел на сайт - картинка качается. Так попробовал несколько прокси. Все работает.
    Убрал прокси - выходит сообщение о лимите.
    Значит прокси работают.

    Но при использовании этих прокси через прогу ничего не качается...

    В чем может быть проблема?
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Наверное, всё-таки дело в прокси. надо было показать пару образцов. Они хоть и умирают рано, но немножко больше понять можно было.
    Почитай внимательно вот этот урок Ссылки недоступны для гостей
    Надо учесть тот факт, что Content Downloader не работает с проксями socks. Смотри в конце описания - "PS: Socs сервера не поддерживаются!".

    Найди побольше свежих, хороших прокси, проверь их на валидность через Content Downloader.

    Но, только что проверил,- задал малое количество проксей, через некоторое число картинок, перестало скачиваться. Взял новые прокси, более 200,- качается спокойно, все набранные ссылки. Я выставил скачивание в 2 потока (на всякий случай).
     
    Последнее редактирование: 11 мар 2012
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    соксы поддерживаютя cd

    если посмотреть на дату написани гайда
    это я к тому что соксы поддерживаются cd, поскольку только ими и пользуюсь в последнее время. (arm proxy сервис платный есть такой)/

    В проекте возможно как вариант использовать макрос getmorecontent для повышения раздновидности ип в потоках. Насчет паблик прокси можете ненадеятся что они скрывают ваш ип именно если это быстрые (быстрые значит прозрачные).

    п.с. есть сомнения насчет корректного перебора проксей из списка программой cd. Это уже ранее отметил bork.., что прокси както повторяются часто в независимости от огромного списка, да и сам замечал тому подтверждение бан гугле при парсинге выдачи или снипетов (без cookies). В наличии есть мини програмка котора в 1-50 потоков парсит выдачу через прокси - так там без бана гугла парсит любое количество выдачи хоть сотни тысяч
     
    Последнее редактирование: 11 мар 2012
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Насчёт внедрения socks, нигде написано не было. Но, если суммировать наш опыт, всё равно, для данного сайта (что указал veh) вся проблема упирается в качество и количество прокси.

    Насчёт платных прокси перепробовал ряд сайтов работа которых, то есть предоставляемые прокси, практически ничем не отличались от тех, что есть на бесплатных ресурсах и плюнул на них. Если поделишься ссылкой (ЛС) на хороший сервис,- буду благодарен.
     
  5. veh

    veh New Member Пользователи

    Регистрация:
    10 мар 2012
    Сообщения:
    8
    спасибо за ответы

    прокси грабил свежие прям перед парсингом сайта
    набралось штук 200. из списка удалил все что дольше 9 секунд отвечали.

    и проверял их через Content Downloader

    по поводу того, что "все равно палится реальный IP" - заходил в яндекс с запросом "мой IP" и он выдавал IP прокси - сам был удивлен...

    фишка в том - если браузер пускать через эти прокси то все гуд. поэтому и закралась мысля о корректности использования прокси.

    сегодня вечерком попробую еще раз награбить новых проксей. попробую спарсить опять картинки. и отпишусь. выложу список проксей для наглядности.

    картинки собираю чисто для своей коллекции. тут коммерческого интереса нет и если не спарсится сайт ничего страшного.

    для меня главное разобраться, в чем может быть проблема...
     
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Парсинг картинок

    Ну, проблема только в проксях. Их надо иметь с запасом, причём с большим. Мой совет,- собери нужные ссылки на нужные картинки, создай проект, скинь все собранные ссылки в тхт-файлик, задай адрес файла в CD, поле "Файл с загруженными элементами" (там, где потоки, в вкладке "Контент"). Всё это, вместе с файлом проекта, и файлик со ссылками, поставь в отдельную папку.

    Далее, набери №№-ое количество проксей, и задай скачивание. Я так понимаю, что у них на сервере, просто стоит проверялка, и, даже если ты скачал через одно прокси одну или пару картинок, это прокси могут забанить, и не ждать, пока ты с него скачаешь всё допустимое количество. Такое может происходить если у них ещё идёт проверка на "человечность", то есть стоит тайм-аут, который "понимает", что один человек не может открыть одновременно две ссылки, или что-то типа того. Так что проксей, надо иметь не 200, а, из расчета того, что если надо скачать 200 каритнок, лучше иметь 2000 проксей. В общем с запасом.

    Так вот в чём суть. Если ты скачаешь, с этими проксями, скажем свои 200 картинок, и тебя забанят, то есть не дадут скачивать дальше, то, ничего страшного не произойдёт. Останови парсинг, найди новую партию проксей, и задай новый парсинг. Если будет подключён "файл с загруженными элементами", то картинки, которые уже скачались, не будут скачиваться по второму разу. И так, пока весь список ссылок не будет спарсен. Так, за один раз можно будет набрать очень много картинок. (может быть даже все картинки сайта :D или интернета). Главное, ты избежишь дубликатов, и лишней траты времени
     
  7. niger

    niger New Member Пользователи

    Регистрация:
    11 фев 2012
    Сообщения:
    3
    Аналогичная проблема. Прокси 100% процентов рабочие. Или прога косячно работает или я пытаюсь спарсить сайт экстрасенсов.
    Ставил прокси - делает вид что парсит но ничего не происходит (мой ип в бане)
    Ставил прокси на мой чисты ип - качает первое время нормально, после мой ип улетает в баню и так же ничего не качает.
    Заходил с дех же прокси на тот сайт через браузер всё отлично открывается.
    Возможно программа не работает с прокси из-за каких то настроек?
     
  8. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Тут трудно сказать, надо смотреть настройки. Прога вряд ли косячная, разве что у тебя на компе какой-то вирус, но, как программа у тебя работает с другими сайтами? Если и там такая же проблема... Но, думаю, именно этот сайт слишком мудрёно защищает свой контент.
    На данный момент,
    - ищи всё время новые прокси
    - попробуй выставить список юзер-агентов или просто меняй их
    - поработай с другими сайтами, посмотри как он работает
     
  9. veh

    veh New Member Пользователи

    Регистрация:
    10 мар 2012
    Сообщения:
    8
    Все-таки проблема имеет место быть.
    Вирусов на компе нет. Стоит Avast, который обновляется каждый день. Да и к тому же 2 года работы в министерстве сисадмином не проходят зря. С компом все гуд.

    Использовал качественные прокси и разные юзер-агенты.

    Прошу посмотреть эти видео. Заснял весь процесс работы с прокси.
    Специально купил пачку платных прокси для проверки. И запустил работу CD через Proxifier.

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
    Последнее редактирование: 11 мар 2012
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Хорошее видео, спасибо.

    Однако, оно не убеждает в том, что виновата программа. только в том, что где-то есть какая-то заковыка. Я, грешу в первую очередь на защиту сервера картинок (придумали же такое, хорошим людям не дают картинки скачать :mad:).

    - Если бы программа не работала, то она не скачивала бы картинки ни так, ни эдак.
    - У меня, с бесплатными проксями скачивает. Видео показывать не буду, надеюсь, на слово поверите. Причём меняю прокси и продолжает скачивать
    - То, что в браузере картинку показало, этого мало, надо было её попробовать скачать (ту, что через этот же ip в CD не скачивало)
    - Тут же картинку (что не скачивается), надо было просмотреть в CD,- убедиться показывает-не показывает

    Причин не скачивания тут может быть несколько:

    - Первая состоит в том, что на сервере всё-таки предусмотрена какая-то защита от копирования и какой-то определитель, прокси-не прокси.
    - Как логиниться программа на сервер при скачивании не знаю, но, если ставить прокси через Proxifier, всё ведь копируется. Значит. опять же суть не в CD, а в прокси. Тебе надо было просто скормить Proxifier-у весь список и спокойно скачивать. Там есть такая опция, правда, работает довольно-таки дико или я до конца не разобрался с ней.

    Однако, надо, конечно понять, что происходит при скармливании проксей программе, что и почему не работает?

    - на видео видно, что при работе с прокси срабатывает фильтр "битые картинки". Надо было его убрать. Картинки там большие по объёму, и, возможно, программа просто не дожидается окончания скачивания, выдаёт ошибку. Это, уже можно считать ошибкой программы, но временно её можно устранить, сняв фильтр, в дальнейшем, надо сказать об этой неприятности автору программы.
    - В браузере надо было картинку не просто открыть, но и скачать, чтобы видеть как ведёт себя сервер.
     
  11. sergey_zell

    sergey_zell New Member Пользователи

    Регистрация:
    7 ноя 2014
    Сообщения:
    1
    Я качал сайт
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    нормально качает, нет ограничения по количеству скачанных картинок.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ограничения нет...
     

Поделиться этой страницей