PROXY для Content Downloader, используя Tor

Тема в разделе "Решение проблем с использованием программы", создана пользователем kagorec, 3 апр 2012.

  1. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Здраствуйте

    Всем известный сервис TOR (Ссылки недоступны для гостей) предоставляющий анонимность в интернете при использовании tcp протокола, на его основе также можно использовать прокси для Content Downloader. Если кратко - бесплатное решение использования прокси (с выбором стран) для большинства интернет программ.

    Инструкция:
    1.
    Скачиваем Ссылки недоступны для гостей (русский язык Посмотреть вложение AdvOR-Russian.zip распоковать в папку)
    2. Содержимое архива распаковываем в любую папку (можно в папку отдельную на рабочем столе)
    3. Запускаем Content Downloader, и чтобы указать в парсере прокси нажмите сочетание клавишь ctrl+r, в окно добавьте 127.0.0.1:9050 (см. внизу скриншот пункты 1,2,3)
    4. Потом запускаем AdvOR.exe где чуть ниже жмем кнопку Connect. Всё, переходим в CD и парсим что надо не опасаясь бана!

    Advor_IP_v_Proxy.png


    Лайфхак: вы можете одновременно запустить несколько адворов, но в настройках у каждого должен быть индивидуальный порт.

    Примечание: Надо понимать что скорость немного меньше будет поскольку через прокси, зато не страшны баны.

    ВАЖНО: Уважаемые пользователи из Казахстана и Беларуси, обратите внимание что в вашей стране негативное отношение к Tor сети, поэтому возможно данный способ окажется не рабочим. Подробнее geektimes.ru/post/283392/
     
    dimochkaorg, dervish и seven нравится это.
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Показанных настроек недостаточно, там много чего ещё есть в программе. И показанная картинка, говорит только о том, что парсинг идёт без использования прокси. И что? Это значит, что парсинг шёл через данную программу? Не факт. Надо испробовать проект, при котором ресурс банит, задать настройки программы, и посмотреть будет банить или нет. То, что Content Downloader способен работать без прокси, мы и так знаем. В общем, пока не видно целесообразности программы,- например, Гугле как банил, так и банит.
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    ...В первом посте аж два раза отметил что настройки прокси в CD не надо указывать!

    В cd жмем F8 и добавляем к списку адресов пару сайтов показывающих ваш ip адрес (2ip.ru и т.д.). Переходим в указание границ парсинга и видим что при просмотре этих сайтов показывает уже другой ip - значит рабоет!
    Если с сайтами все идет нормально то с Google отдельный разговор, попробовал выдачу напарсить - блокирует.
     
    Последнее редактирование: 7 сен 2012
    dimochkaorg нравится это.
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Это о чём?
    Реально непонятно было, задал парсинг и ничего хорошего не получил

    Это понятно, программа предупреждает о том, что надо убрать всё, что связано с ip, и даже список показывает прописанных в CD ip

    Это не пробовал, главное гугль

    Для Гугле надо перенастривать программу. Только что попробовал проект, который 100% блокировался Гуглем. РАБОТАЕТ. Не банит. Раньше банило если получал боьше чем 1600 ссылок, сейчас получил более 5000 и ничё. Но как и что получилось не понял, надо соображать,

    [​IMG]

    Суть дела в том, чтобы задать программе периодичность смены ip. Вот настройки
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    С гоогле невсегда дела обстоят хорошо, если через тор идет парсинг то попадаются иногда забаненные подсети.
    Было замечено что если список ссылок в CD имеет правильный вид то уже в AdvTor по неясным причинам становится ссылка битой (не разобрался еще где там настроить чтоб символы в адресе не трогало)
    PHP:
    0:26:20] [proxyConnection request for www.google.com:80 .
    [
    00:26:20] [notice] [Content Downloader.exe PID1392ID220Downloading from /sorry/?continue=http://www.google.ru/search%3Fclient%3Dopera%26rls%3Dru%26q%3D%25D0%25BC%25D0%25BE%25D0%25B1%25D0%25B8%25D0%25BB%25D1%258C%25D0%25BD%25D1%258B%25D0%25B9%2520%25D1%2582%25D0%25B5%25D0%25BB%25D0%25B5%25D1%2584%25D0%25BE%25D0%25BD%2520samsung%2520s5610%26sourceid%3Dopera%26ie%3Dutf-8%26oe%3Dutf-8%26start%3D130
    [00:26:20] [notice] [Content Downloader.exe PID1392ID268Downloading from http://www.google.com/sorry/www.google.ru/search?client=opera&rls=ru&q=?????????%20???????%20samsung%20s5610&sourceid=opera&ie=utf-8&oe=utf-8&start=120
    [00:26:23] [notice] [Content Downloader.exe PID1392ID250Downloading from http://www.google.ru/www.google.ru/search?client=opera&rls=ru&q=????????%20???%20?????????%20?????????%20samsung&sourceid=opera&ie=utf-8&oe=utf-8&start=10
    [00:26:24] [notice] [Content Downloader.exe PID1392ID220Downloading from http://www.google.com/sorry/www.google.ru/search?client=opera&rls=ru&q=?????????%20???????%20samsung%20s5610&sourceid=opera&ie=utf-8&oe=utf-8&start=130
    Лог из AdvTor, русские буквы стали вопросами и т.д. :rolleyes:
    -
    Причину выявил методом "тыка")) - не парсило выдачу изза настроек проекта,
    потомучто использоватась конструкция url?q={get}&|{get} в фильтре (поиск-замена) в итоге при сборе выдачи во вкладке "Ссылки" часто получались битые ссылки поисковика с запросом
     
    Последнее редактирование: 5 апр 2012
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Вопрос мне непонятен?
     
    Последнее редактирование: 4 апр 2012
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Ну вот и google покорен (на очереди yandex и bing) благодаря AdvOR, файл проекта и скрины настроек прикладываю к посту. Проверил работу через тор сеть - парсит на ура с гоогле снипеты и выдачу. Единственный ньюанс который неизбежен - попадаются нерабочие/забанненые сети
    Скриншот результата парсинга гоогле выдачи в 5 потоков (если потоков 10 то падает тор)

    [​IMG]

    такие же результаты приблизиельно и при парсинге снипетов.

    Настройки AdvOR стандартные, только сменен период продолжительности цепочки на 30 секунд
    и "Заголовки HTTP"

    [​IMG]

    Прикладываю к посту готовый проект, где по выбору отметить:
    ["повторяющееся границы 1" - парсинг снипетов], ["повторяющееся границы 2" - парсинг выдачи]
     

    Вложения:

    Последнее редактирование: 19 апр 2012
    vnk75, evgenij и Mitchell нравится это.
  8. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Хорошее дело, только недостаток русской версии в том, что её надо устанавливать в Windows, английских версий больше, есть та, что не требует установки. Для меня она предпочтительней. Но, тут кому что надо.

    Это очень важный момент, на который следует обратить внимание. Если вам нужно что-то спарсить один-в-один, то данный програмный продукт может какие-то ссылки пропустить, если попадётся битый прокси.

    Тут можно поиграться, а можно и не играться. Программа работает так, что на каждый новый урл она меняет прокси, это задаётся нажав на кнопочку "Новая цепь", там можно выбрать опцию "Random".

    Kagorec, спасибо за труды.

    P.S. Русификаторы есть Ссылки недоступны для гостей отдельными файлами. Если кому удобнее использовать вариант программы без установки на компьютер, то надо просто добавить файл русификации. Перезапустить программу или просто после запуска, надо войти во вкладку "System" и выбрать русский язык. Как бонус, прилагается и чёрный список
     
    Последнее редактирование: 5 апр 2012
  9. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    Хорошее решение. Спасибо.
     
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Иногда полезно погулять по форуму, посмотреть о чём пишут люди. Часто, ответы на ваши вопросы уже где-то могут быть
     
  11. jureus

    jureus New Member Пользователи

    Регистрация:
    25 мар 2012
    Сообщения:
    8
    Действительно отличное решение, но вот что-то не могу найти в программе опции период продолжительности цепочки, тыкните пожалуйста носом.
     
  12. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Проставьте "русский" и потыкайте. Эти опции в самом верху выставляются
     
  13. cdcustomer

    cdcustomer New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    41
    хмм, а у меня почему -то не вотмечается СД, и некоторые другие программы тоже не отмечаются - у кого такое было?
     
  14. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Запустите Tor, задайте настройки, подождите пока заработают все прокси, потом запускайте CD, он появится в списке.
     
  15. aporf

    aporf New Member Пользователи

    Регистрация:
    13 окт 2012
    Сообщения:
    12
    У меня проблема с программой. При парсинге через AdvOR не сохраняются картинки, а при парсинге без неё, всё нормально.
     
  16. jozess

    jozess Member Пользователи

    Регистрация:
    19 дек 2010
    Сообщения:
    122
    У меня тоже картинки не сохраняются:( А так отличный софт.
     
  17. ixbit

    ixbit New Member Пользователи

    Регистрация:
    1 дек 2012
    Сообщения:
    4
    почему то через advor у меня картинки перестают загружаться, csv - пополняет
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Попробуйте в вкладка "контент" - группа "картинки" - кнопка "дополнительные параметры загрузки изображений" поставить галочку "загружать изображения, генерируемые php-скриптом".
     
  19. Evgeny777

    Evgeny777 New Member Пользователи

    Регистрация:
    30 дек 2012
    Сообщения:
    1
    Подскажите пожалуйста, а если Яндекс Маркет уже поставил меня в бан (без капчи - вообще не дает открыть открыть маркет) то можно через AdvOR парсить и сообирать ссылки? Лично у меня не получается :(((
     
  20. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Именно через адвор и надо было парсить, скорость хорошая, потоки можно указать 50 (CD)
     

Поделиться этой страницей