Поиск ссылок на сайте написанном на Java

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем strateg2010, 15 дек 2018.

  1. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Всем привет! Есть сайт B2B который выдает логин и пароль для клиента (в общий доступ не могу их дать). и есть группы товаров с пагинацией, на сколько я понял Java обрабатывает клик по странице а аякс уже без перезагрузки отображает содержимое. подскажите пожалуйста, как в таком случае искать ссылки пагинации?
    Если смотреть HTTP заголовки то нашел вот что:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 80 постов.**
    Обычно тут отображается полная ссылка для аякса, но вместо этого ява. есть варианты узнать ссылки на пагинацию? Печеньки специально удалил, опять же не могу дать, в общий доступ.
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.549
    Здравствуйте
    1) без сайта и данных входа сказать почти ничего невозможно (можете выложить под тегом HIDE в 350 сообщений Снимок.PNG
    2) курим POST запросы, то что вы скинули в нижней части очень на него похоже
     
  3. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 350 постов.**
    Может имеет смысл сделать хайд для определенных пользователей? xenForo это позволяет сделать.
     
    Последнее редактирование: 15 дек 2018
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.549
    Зачем? это сообщение увидят только те, кто имеет больше 350 сообщений на форуме, я таких знаю немного)
    а по сути то что выделено отвечает за страницы. Это post запрос.

    upload_2018-12-15_10-49-9.png
    генерируем такой же и перебираем страницы.
    Начальные страницы с каталога советую собрать руками.
     
  5. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Можно ссылку на пост запросы и как их отправлять?
    И что значит перебираем?
    Не совсем понимаю что нужно делать и как работать с пост запросами(
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.287
    Решается через WBApp

    2018-12-15_12-39-12.png
     

    Вложения:

  7. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Спасибо сейчас попробую.
    с WBApp я так и не смог подружиться до сих пор не понимаю как с ним работать ((
     
  8. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Ага работает, на сайт авторизовывается, по ссылкам кликает.
    Особо понятного видео гайда для себя не нашел, как собирать ссылки с страниц. И как подставлять ссылки откуда брать собственно ссылки на товары.
    Прошу сильно не пинать, не понимаю как работать с WBApp

    Все разобрался с парсингом ссылок на товары. Проблема одна осталась. Есть категория (Продукция Apple) в ней 365 товаров, но WBApp находит 374. Возможно ли как то проконтролировать какие ссылки лишние? Или необходимо каждую ссылку смотреть и лишнее удалять?

    Так же заметил что почти 500 ссылок не нашел. на сайте всего примерно 1956, нашлось около 1450. в прайс листе вообще 1562))
     
    Последнее редактирование: 18 дек 2018
  9. strateg2010

    strateg2010 Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    117
    Город:
    Владивосток
    Решил вопрос. доработал под себя проект Сергея выше.
    Остался вопрос, а для чего нужны [INT]?
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.287
    Это целочисленные переменные, которые изменяют значения в циклах.
     

Поделиться этой страницей