Ни одна из библиотек не работает

Тема в разделе "Решение различных задач по парсингу", создана пользователем kenny872012, 29 янв 2019.

  1. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    313
    Здравствуйте. Есть сайт Ссылки недоступны для гостей на котором ни одна из библиотек не загружает исходный код, либо загружает его не полностью (без ссылок). Подскажите как парсить такие сайты именно с помощью CD?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Работает все, в ctrl+h ожидание отклик страницы в 5000, библиотека win, обработка DOM для "контент"

    [​IMG]
     
    co11usor нравится это.
  3. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    313
    Забыл уточнить, карточку товара нормально загружает через DOM, а из страниц пагинации грузит только первую (генерация ссылок на страницы пагинации не поможет, так как очень много категорий сайта во всех городах генерировать придется). Еще интересный момент, пробовал пропарсить через проект wbapp, в wbapp страница отображается полностью со всеми страницами пагинации, если применить этот проект в сканере сайтов, отображается только первая.
    Проект приложил на всякий случай.
     

    Вложения:

    • edadeal.cdp
      Размер файла:
      37,2 КБ
      Просмотров:
      3
    • edadeal.ru.wbapp
      Размер файла:
      767 байт
      Просмотров:
      1
  4. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    313
    Вопрос снят, забыл что существует динамический num Ссылки недоступны для гостей как раз пригодился в этой ситуации
     
    co11usor нравится это.
  5. co11usor

    co11usor Member Пользователи

    Регистрация:
    17 фев 2017
    Сообщения:
    46
    У меня сложилась тоже проблема с этим сайтом, мне необходимо спарсить определенную категорию: Ссылки недоступны для гостей
    Программа находить нереально кол-во страниц и ссылок. Если смотреть на сайте, то в данной категории должны быть около 330 товаров (11 листок по 30 страниц).
    Если делать динамический num то парсер уходит в подбор более 70 листов (окончание не дождался)
    Также обратил внимание, если включить пред просмотр wbapp, то вид окна отличаться от вида в браузере и с 1 страницы парсер забирает 15 ссылок на товары, хотя в браузере на каждой странице по 30 ссылок.
    Проект приложил.
     

    Вложения:

    • edadeal_ru.cdp
      Размер файла:
      37,1 КБ
      Просмотров:
      0
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     

Поделиться этой страницей