Не показывается код страницы, хотя сайт открывается.

Тема в разделе "Решение различных задач по парсингу", создана пользователем User123, 2 дек 2020.

  1. User123

    User123 New Member Пользователи

    Регистрация:
    23 май 2015
    Сообщения:
    43
    Ставлю библиотеку запросов WIN
    Выбираю URL и нажимаю задать выбранную границу парсинга.
    В итоге открывается окно:
    В верхней части надпись:
    <html><head><title>site.com</title><script src="/cdn-cgi/apps/head/1-KACqpYoljHGkMYDKmMI217R1U.js"></script><style>#cmsg{animation: A 1.5s;}@keyframes A{0%{opacity:0;}99%{opacity:0;}100%{opacity:1;}}</style></head><body style="margin:0"><p id="cmsg">Please enable JS and disable any ad blocker</p><script>var dd={'cid':'AHrlqAAAAAMAsmka1pPg5YIAsrk4pA==','hsh':'46A80E32CDDCFB70225B9AE3E850D5','t':'fe','s':9520,'host':'geo.captcha-delivery.com'}</script><script src="Ссылки недоступны для гостей"></script></body></html>

    В нижней части открывается сайт без проблем. В окне авторизации никаких каптч нет.

    Есть ли возможно это решить. Или за деньги?
     
    Последнее редактирование: 2 дек 2020
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.073
    Город:
    Барнаул
    Здравствуйте.

    Как вы думаете, если вы не предоставили URL WEB страницы. Сможем ли в этом случае подобрать решение. Не совсем.

    Напишите URL, подберу решение.

    Оплатите по желанию.
     
  3. User123

    User123 New Member Пользователи

    Регистрация:
    23 май 2015
    Сообщения:
    43
    Например: Ссылки недоступны для гостей
    Готов заплатить за решение.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.073
    Город:
    Барнаул
    Сейчас сделаю.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.073
    Город:
    Барнаул


    Предварительно проверьте, что у вас актуальная версия программы. Главное меню -> Справка -> О программе.

    Желательно, чтобы версия была 11.1.1111181 и новее.

    Проект приложил. Нужно будет пройти каптчу в браузере инструмента задания границ парсинга (Ctr+f1) и в проекте WBappCEF (Ctrl+w).

    После проверки, что все работает и в случае, если решение вас устраивает, переведете любую сумму по одному из реквизитов Ссылки недоступны для гостей
    Перевод на ваше усмотрение, можно не делать, это добровольно.

    Идеальным вариантом оплаты (вместо перевода) было бы продление подписки на обновления для вашего ключа, чтобы угодить и нам и вам.

    Как продлить подписку на обновления Ссылки недоступны для гостей

    Спасибо.
     

    Вложения:

    • znanija_com.cdp
      Размер файла:
      46,4 КБ
      Просмотров:
      4
  6. User123

    User123 New Member Пользователи

    Регистрация:
    23 май 2015
    Сообщения:
    43
    Хорошо, сейчас разберусь. И вернусь.
     
  7. User123

    User123 New Member Пользователи

    Регистрация:
    23 май 2015
    Сообщения:
    43
    Разбираюсь, но не могу понять. В окне задания границ парсинга например Ссылки недоступны для гостей
    есть ответ: "6 ответ пожалуйста хех"
    но эту строку не находит, хотя если в браузере открыть этот текст есть
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.073
    Город:
    Барнаул
    Предоставьте логин с паролем для входа на сайт (в ЛС), чтобы я проверил и подобрал решение.
     
  9. User123

    User123 New Member Пользователи

    Регистрация:
    23 май 2015
    Сообщения:
    43
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 10000 постов.**
     
    Последнее редактирование модератором: 2 дек 2020
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.073
    Город:
    Барнаул
    Предоставленный аккаунт не имеет доступа к ответам.

    2020-12-02_14-54-06.png

    Будьте внимательны в действиях, чтобы не выполнялась лишняя работа.
     
  11. User123

    User123 New Member Пользователи

    Регистрация:
    23 май 2015
    Сообщения:
    43
    Ну в общем понял, спасибо. Надеюсь это кому-то пригодиться. просто раньше парсинг шел на 5 патоках. На одном потоке вобще не реально. Там много контента. Например 50 000 страниц будет парсить, даже не знаю какое количество времени.
    Если нет решения для 5 потоков, то ясно понял, значит не получится.
    Просто подумал, что есть решение для 5 потоков. Так как в окне задания границ парсинга, сайт прекрасно открывается в нижней части, а в верху надпись что js не включен.
    А скажите вопрос такой, надеюсь сильно не отвлеку, сколько примерно будет стоить паресер написать под данный сайт c 5 потоками?
     
  12. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    676
    Может что не понимаю ....

    [​IMG]
     
  13. User123

    User123 New Member Пользователи

    Регистрация:
    23 май 2015
    Сообщения:
    43
    Я вот что заметил, если через скрипт php файла передать заголовки, то скрипт через $curl = curl_init() парсит страницу
    если заголовки убрать то именно так как в программе получается:
    Please enable JS and disable any ad blocker

    то есть в библиотеке win можно вставить эти заголовки?
    $headers[] = 'Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9';
    $headers[] = 'Accept-Encoding: identity';
    $headers[] = 'Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7';
    $headers[] = 'Cache-Control: no-cache';
    $headers[] = 'Connection: keep-alive';
    $headers[] = 'Host: '.parse_url($url)['host'];
    $headers[] = 'Pragma: no-cache';
    $headers[] = 'Sec-Fetch-Dest: document';
    $headers[] = 'Sec-Fetch-Mode: navigate';
    $headers[] = 'Sec-Fetch-Site: none';
    $headers[] = 'Sec-Fetch-User: ?1';
    $headers[] = 'Upgrade-Insecure-Requests: 1';
    $headers[] = 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.193 Safari/537.36';
     
    Последнее редактирование: 4 дек 2020
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.073
    Город:
    Барнаул
    Можно.

    В окне ctrl+h поле Custom headers.

    Код:
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
    Accept-Encoding: identity
    Accept-Language: ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
    ...
     

Поделиться этой страницей