Проблема с парсингом сайта с такой структурой урлов "catalog/section/lyustry/#p12"

Тема в разделе "Решение проблем с использованием программы", создана пользователем parser266, 21 янв 2018.

  1. parser266

    parser266 New Member Пользователи

    Регистрация:
    21 янв 2018
    Сообщения:
    1
    Город:
    МОСКВА
    Добрый день.

    имеется сайт у которого есть ~9500 товаров, раздел с товарами выглядит так

    /section/lyustry - первая страница
    /section/lyustry/#59&p22 - вторая....
    ...
    /section/lyustry/#59&p161 - последняя страница

    делаю все как показано в обучающем Ссылки недоступны для гостей, то есть генерировал ссылки вот так /section/lyustry/#{key}&p{num} . Парсинг проходит за 3 минуты, но почему то вместо 9000 товаров вижу ~ 60, тоесть сколько умещается на 1 странице.

    В чем может быть проблема?
     
    Последнее редактирование: 21 янв 2018
  2. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    401
    Добрый день.
    Проблема может быть в неверно выбранной библиотеки для парсинга (ctrl+h).
    Для того, чтобы понять как сайт отображает данные, необходимо получит доступ к нему. Предоставьте ссылку на сайт (можете под хайдом).
     
    Последнее редактирование: 21 янв 2018
  3. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте
    Скорее всего подгрузка страниц
    неправильная.
    Либо требует в cntr+h указать галочку контент и ссылки и сканер, если вы им пользуетесь.
     
    Root нравится это.
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Пробуйте отснифать http заголовки, чтобы выявить нормальный вид ссылки от catalog/section/lyustry/#p12 , после сгенерировать список ссылок по которым CD удобно собирать товарные
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Все, что стоит в ссылке после символа решетки, не воспринимается при простом GET/POST-запросе. Это дело воспринимается только браузером. Включите использование Internet Explorer (DOM) (в окне ctrl+h), либо http://forum.sbfactory.ru/threads/p...-catalog-section-lyustry-p12.5985/#post-34511
     

Поделиться этой страницей