Авто обновление cookies в сканере

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем JAGUAR, 15 янв 2014.

  1. JAGUAR

    JAGUAR Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    28
    Здравствуйте, подскажите возможно ли в программе автообновление cookies при сборе ссылок?


    Пытаюсь сканировать ссылки, получаю куки, все нормально, спустя время выводится капча и приходится заходить в авторизацию с помощью cookies и их обновлять, делов на 2 клика, но так как сканер не понимает, где именно появилась эта капча он использует список дальше получая её снова и снова.

    Сканирую в 1 поток, пробовал ставить задержку в 2-6 мс - не помогает. Не однократно попадались сайты с подобной защитой, если сидишь через обычный браузер то все нормально, но видно как переодически в куках меняются значения, можно клацать на ссылки хоть каждые пол секунды никаких капчей, а вот если они не обновляются тогда она выскакивает.

    Как быть в такой ситуации без использования внешних php скриптов? Есть ли какая-то реализация их автообновления в программе?


    Чего всегда не хватало в сканере:

    1. Окна лога с ответами
    2 Даже если ответ сервера 200 не хватает задать границу с кодом при получении которого, сканер прекращает работу или ставится на паузу.
    3. В сканере и при парсинге статей не хватает возможности задать границу в которую будет попадать картинка с капчей antigate.com для последующего её распознавания.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте!

    Пауза 2 мс - 0,002 секунды. Надо ставить 2000-6000, тогда банить не должно.

    В программе предусмотрена функция автоматической POST-авторизации через каждые n загруженных элементов: открываете сканер сайтов, нажимаете ctrl+h, нажимаете кнопку "авторизация в браузере/авторизация методом POST", переходите во вкладку "авторизация методом POST" и там выставляете нужные параметры.

    Спасибо за предложения, учли!

    Надеюсь, наш ответ вам помог. С уважением к вам, администрация сайта.
     
  3. JAGUAR

    JAGUAR Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    28
    2-6 имелось ввиду 2000-6000, прощу прощения за неточность, если куки не обновляются на сервере все равно срабатывает скрипт защиты. Попробую ваш совет, спасибо.
     
  4. JAGUAR

    JAGUAR Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    28
    Авторизация методом POST не помогает, в пост запросе отправляется логин пароль на сайт, но при парсинге ничего не разлогинивается. Приходится каждую минуту нажимать в web браузере кнопку "передать cookies (использовать эти cookies в программе)", как автоматизировать эту кнопку?
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    так и автоматизировать, чтоб через каждые 100 страниц например заного авторизировалось. скиньте в лс ссылку с логин пароль тестовым, просмотрю что возможно сделать.

    Проблема решена, назначив авто-авторизацию через каждые 10 страниц (можно увеличить интервал) и обработку DOM обязательно

    [​IMG]
     
    Последнее редактирование: 16 янв 2014
  6. JAGUAR

    JAGUAR Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    28
    Использовал ваш файл проекта, 10-15 минут все было нормально напарсил 10к+ страниц, но после счетчик замер. То есть сканер продолжает сканировать, страницы не прибавляются. Посмотрел в IE капч нет, в мозиле тоже, но то что страницы быть должны это точно. Заранее добавлял в список очереди откуда тянуть линки.
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Периодически останавливайте сканер и про dom обработку не забудьте, 2 потока.
     
  8. JAGUAR

    JAGUAR Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    28
    Включил DOM для сканера, счетчик пошел дальше. Буду шаманить дальше, спасибо ещё раз
     
  9. JAGUAR

    JAGUAR Member Пользователи

    Регистрация:
    26 авг 2010
    Сообщения:
    28
    Кстати заметил маска для ссылок указана с помощью регулярки, было бы не плохо добавить визуальный конструктор для них или хотя бы добавить шаблоны например: для ссылок со 2ув и html/php в конце или с 3ув и htm/shtml в конце.
     

Поделиться этой страницей