Задвоение капчи на антигейт

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем dexperanto, 6 июн 2015.

  1. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Добрый вечер. Проблемка возникла. Юзаю в wbapp ввод капчи. У меня 317 тысяч профилей, примерно на каждом 35-50 вылезает капча. Собственно, пытался в 50 потоков. Много потоков сразу отсылают одну и ту же картинку, на которую натолкнулись=) Получается по времени хорошо, 1000 профилей за 5 минут, на антигейте выходит по 0,5 бакса. Причем парсит всё отлично, ещё кликает на "показать телефон". Можно как-нибудь сделать, чтобы они распознавали одну и ту же картинку, и не посылали её миллион раз на сервер?

    Пробовал прокси, и user-agent менять) Но там контакты открыты только через авторизацию, возможно в системе как-то в базе банится сам аккаунт, и пока не введёшь капчу, не разбанивается обратно на просмотр=) Через антигейт с таким кол-во капч будет дороговато слишком, 317*0,5 баксов. А парсить в два потока 317 тысяч профилей это до пенсии.

    Может быть есть какое-то решение, чтобы парсить в 50 потоков спокойно? То есть, один из потоков получил капчу, все остальные ждут решение, пока тут не решится. А-то получается, что за 1000 профилей отправляется 500 капч, и где-то 70% одинаковых из них=) Не дело это...
     
  2. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Вот код:
     
  3. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Может какую-то переменную сделать общую.
    Когда один из потоков получит капчу, то переменной задаётся значение 1.
    Другие потоки, запускаясь, видят, что 1-ка значение и ждут получение капчи.
    Как только капча получена, то значение сразу меняется на 0, и парсер работает дальше.
    Но вот только как это реализовать в коде? Может кто помочь?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Первое: парсить в 50 открытых окон Internet Explorer - для меня сомнительное занятие (будет ли пропускать страницы?)

    Далее: вам нужно оставить разделить проекты WBApp. Из вашего проекта, по которому парсите убрать конструкцию капчи:
    Создать новый проект WBApp для отправки капчи:
    Новый проект WBApp для отправки капчи (C:\Anticapcha.wbapp) подключить к шаблону вывода примерно таким способом:
    Таким образом, при вылете капчи будет к антигейту отправлен только 1 запрос и все страницы с капчей перезагрузятся в Content Downloader уже с нужным контентом.

    С уважением к вам, Сергей.
     

Поделиться этой страницей