CloudFlare как спарсить ссылки?

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем strateg2010, 23 фев 2019.

  1. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Вечер добрый! Возник вопрос с этим CloudFlare, что делать если он блокирует CD?
    пациент: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    что делалось, в сканере сайтов настроил парсинг всех страниц пагинации и и товаров, осталось только запустить. Удалось взять только несколько страниц ии.. бан. Перезагрузил роутер, добавил прокси эффект один "страница пуста". есть предложения, как бороться?
     
  2. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    хммм... в настройках HTTP запросов выбрал
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    и заработало. назревает вопрос в чем разница? и почему если выключить показ браузера то в любом случае "не получилось получить код страницы"?

    И если таким образом парсить на вкладке "Страницы" то обработка 1500+ ссылок занимает 10+ часов. есть ли что-то по быстрее?
     
    Последнее редактирование: 23 фев 2019
  3. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    начиная с 74 страницы перестал загружать код. что делать?
     
  4. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Сергей!!! СПАСИБО ОГРОМНОЕ ЗА ЧУДО ПАРСИНГ Sitemap!!!
    В любом случае все ссылки на товары удалось собрать, но вопрос по поводу парсинга товаров остается открытым. Как парсить что бы не забанили? Прокси? в 1 поток? 1 поток и прокси?
     
    Root нравится это.
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.593
    Город:
    Riga
    Cookies, Useragent
     
  6. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Можно сразу ссылкой на гайд носом тыкнуть?
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.593
    Город:
    Riga
    Извините но у меня нету гайдов (видео) обучения как настраивать парсер для Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ))
    Предположил что для успешного парсинга сайта под Cloudflare достаточно добавить Cookies и актуальный Useragent.
     
  8. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Я про это и спрашивал. но больше на гайд где взять useragent, как спарсить сайт я представляю и уже знаю.
    а про куки не совсем ясно.
    проблема только в том что могут забанить.
    наткнулся на вашу статью: http://forum.sbfactory.ru/threads/proxy-dlja-content-downloader-ispolzuja-tor.296/ думаю завтра опробую. этот же вариант справится и с парсингом ссылок (на будущее)?
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.593
    Город:
    Riga
    Решение отличное для обхода бана. Но НЕ для Cloudflare, который все подсети внес в черный список.
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.287
    Не нужно переживать насчет временных банов от сайта. Если попали в бан, поставьте 1 поток с паузой (подбирается экспериментально). Если это не помогает или скорость не устраивает, используйте список прокси.
     
  11. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Может подскажите сервисы с бесплатными прокси? Как то пытался с ними парсить, ничего путного не вышло или долго ждал или ещё какая беда
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.287
    Таких сервисов я не знаю.
     
  13. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    В общем путем проверок и тестов выяснил:
    Не работает, просит ввести капчу гугл рекапча. думаю можно попробовать анти гейт но чувствую результат будет 0

    Так же если добавить список прокси, поставить задержку 3000 - 4000 = от 220 до 350 товаров парсит нормально потом перестает просто пустые строки. примерно от 40 + часов
    Если проставить диапозон задержки например 2500-5000 = тоже самое что и выше только медленней. примерно от 150 часов
    Если поставить задержку 5000 + включить Internet Exploler (DOM) то время работы ВНИМАНИЕ! 400 + часов.

    Все в 1 поток, если больше сразу банит.

    Есть еще какие то варианты? БУДЬ ПРОКЛЯТ Cloudflare !!!!!!!!
     
  14. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Есть конечно xml и CSV файлы с товарами можно попробовать с ними добавить и я даже уже знаю как!
    Но интересно спарсить именно с помощью программы а ждать месяц что бы спарсить и что бы на пол пути опять получить пустые строчки я не готов((
     
  15. leotop

    leotop Member Пользователи

    Регистрация:
    28 сен 2017
    Сообщения:
    9
    Cloudflare закрывает собой реальный IP адрес сайта и отдает контент со своих серверов. Если его узнать IP адрес сервера, то возможно получать данные сразу с основного сервера сайта, как если бы он был без защиты.
    Для этого в файл
    Код:
    C:\Windows\System32\drivers\etc\hosts
    или /etc/hosts для linux и mac

    Необходимо добавить запись вида ip domain, например
    Код:
    192.168.1.10 www.example.com
    При принудительной маршрутизации cloudflare влиять не будет, сложность в том, чтобы узнать IP адрес сервера.
    Один из методов, это в свойства письма с заказом найти ip отправителя, если сервер отправляет письма от себя.
     
    Последнее редактирование: 5 мар 2019
    xLime и kagorec нравится это.

Поделиться этой страницей