парсинг гугл картинок через прокси

Тема в разделе "Скачивание картинок и файлов", создана пользователем Focus, 30 янв 2014.

  1. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Не совсем понял по поводу Добавлен макрос шаблона вывода [GETGOOGLEIMAGE]запрос[/GETGOOGLEIMAGE] (сделан на основе старого Гугл API, пауза 5 секунд (для избежания бана)
    Прокси теперь не работают при парсинге картинок гугл?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Не изучал вопрос, да и зачем, так как постоянно придется следить за актуальными прокси.
     
  3. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Просто процесс слишком затяжной. Через прокси было б шустрее, 1к элитных и вперед :)
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Что мешает попробовать прежде чем спрашивать. Скорее всего с элитными проксями можно на 50 потоков без паузы (с учетом что проксей от 1к)
     
  5. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Ставил 10 потоков с паузой 1000, через 3 часа бан. В логе вижу что парсинг идет через прокси, но картинки не грузятся пока свой ip не сменил. Поэтому и вопрос такой возник.
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    так может у Вас прокси к ip привязаны?
    пауза в 1сек = 1000 и в 5сек =5000 это разные вещи.
    Вы хотите парсить совсем без бана? добавляйте левые ссылки, ставьте больше паузу.
     
  7. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Зачем левые сссылки? Речь идет о парсинге каритинок гугл. В старых версиях картинки парсились через прокси и проблем не возникало, сейчас на 1к страниц сутки уходят
     
  8. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    гугл не спит.
     
  9. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Спит или нет не имеет значения, парсинг то идет... правда максимум 2 потока с таймаутом 5-8 сек. Быстрее уже бан.
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Смысла нет использовать несколько потоков с паузой. Лучше 1 поток и паузу 3000-5000 =)
     
  11. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    3000-5000 1 поток забанил через несколько часов :( 5000-8000 2 потока работает, странно как то
     
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Если я правильно понимаю работу программы, то как раз из-за асинхронности выполнения потоков у них минимальный предел 5 секунд немного удлиняется. И соответственно реальная пауза не 5 а чуть больше. Хотя могу вкорне ошибаться
     
  13. Focus

    Focus New Member Пользователи

    Регистрация:
    4 апр 2011
    Сообщения:
    38
    Адрес:
    Советский Союз
    Было б неплохо если парсинг картинок с гугла тоже шел через прокси + выбор таймаута ожидания загрузки изображения, которые иногда просто не успевают подгрузиться
     

Поделиться этой страницей