Парсинг контента со страниц с java пагинацией

Тема в разделе "Парсинг конкретных сайтов (ПЛАТНО)", создана пользователем Alexxx, 2 май 2018.

Метки:
  1. Alexxx

    Alexxx New Member Пользователи

    Регистрация:
    7 апр 2018
    Сообщения:
    9
    Как настроить парсинг контента с сайта где пагинация обрабатывается через java-script, то есть, при переключении страниц урл не меняется.
    К примеру есть раздел Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! в котором 49 страниц. С этих страниц нужно собрать ссылки (карточки компаний) типа Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
  2. Alexxx

    Alexxx New Member Пользователи

    Регистрация:
    7 апр 2018
    Сообщения:
    9
    Где можно почитать/посмотреть как парсить данные в подобных случаях как описано выше?
     
  3. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.377
  4. Alexxx

    Alexxx New Member Пользователи

    Регистрация:
    7 апр 2018
    Сообщения:
    9
    Сделал все по инструкции но не вижу ссылок для парсинга.

    Реализация:
    Через HTTP Header Live нашел

    POST запрос:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! (другие вроде как не подходят) скрин Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    POST данные:
    strData={"Keyword":"","CategoryNo":"411","StageOne":"0","StageTwo":"0","StageThree":"0","Export":"0","Import":"0","NewProduct":"0","CF":"0","ISBRIGHTSPOT":"0","PageIndex":"7","PageSize":"15","Provinces":"","Countries":"","OrderBy":"2","Language":"2","NewExhibitor":"0","BrandsExhibitor":"0","ProduceExhibitor":"0","ForeignTradeExhibitor":"0","CFExhibitor":"0","OtherExhibitor":"0","OEMExhibitor":"0","ODMExhibitor":"0","OBMExhibitor":"0"}&interfaceSet=ExhibitorListInProductNew&uri=Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    где PageIndex":"7" передает номер страницы, которую я заменил PageIndex":"[PARAM]" скрин Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! .

    при предпросмотре элементов страницы (перед парсингом) пишет что не найдено ни одной ссылки Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    В чем может быть проблема?
     
  5. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    340
    Добрый день.
    Попробуйте использовать библиотеку Internet Explorer (DOM) (активируется в окне ctrl+h). Парсить при этом необходимо в 1 поток.
    У меня контент загрузился.
     
  6. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    314
    Один поток это самоубийство для такого типа сайта, он страницы подгружает более 5 секунд.
    Все гораздо легче чем кажется на первый взгляд.
    Приложил все карточки фирм и как бонус карточки всех продуктов.
    21 334 - Фирм
    165 772 - Товаров

    Хорошего дня.
     

    Вложения:

    • Links.zip
      Размер файла:
      898 КБ
      Просмотров:
      5
    Последнее редактирование: 31 май 2018
    Alexxx и xLime нравится это.
  7. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    314
    Еще один маленький бонус, настроенный проект.
    Вам осталось выбрать нужные вам границы для парсинга и начать парсить.
    Я добавил пару границ для примера.

    В списке ссылок уже добавлены ВСЕ товары!
    Можно парсить в 50 поток.
     

    Вложения:

    Alexxx, gans и xLime нравится это.
  8. Alexxx

    Alexxx New Member Пользователи

    Регистрация:
    7 апр 2018
    Сообщения:
    9
    Супер! Благодарю за помощь :)
     

Поделиться этой страницей