Как спарсить все нужные ссылки сайта, если каждая ссылка уникальна по логину?

Тема в разделе "Сбор ссылок сканером сайтов", создана пользователем genryford, 5 мар 2019.

  1. genryford

    genryford New Member Пользователи

    Регистрация:
    5 мар 2019
    Сообщения:
    4
    Город:
    Китай
    Здравствуйте! Интересует такой вопрос:
    Каким образом, можно спарсить все нужные ссылки сайта, если каждая ссылка уникальна по логину (нику)? И нет возможности на самом сайте открыть каталог с этими ссылками.
    Но эти страницы есть, но находятся только через гугл )

    Т.е. мне бы хотелось понять, сможет ли софт спарсить все такие ссылки или нет?

    Пример сайта и страниц, которые требуется спарсить:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Все страницы имеют /user/ , но уникальны по логину пользователя.
    На самом сайте найти список юзеров нельзя, только по запросу в гугл:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Находит множество страниц, но хотелось бы понять как их можно спарсить?
    Этот сайт для примера, чтобы было понятно, что меня интересует, подобных сайтов множество, где урлы уникальны.

    Заранее спасибо!
     
  2. leotop

    leotop Member Пользователи

    Регистрация:
    28 сен 2017
    Сообщения:
    9
    Общий алгоритм:
    1) Проверяем карту сайта
    2) Проверяем сайты для партнеров, это могут быть как поддомены, так и самостоятельные сайты
    3) Ничего не помогает, начинаем подбор. В примере ссылок это 9 знаков [0-9a-z], если отдает 404 ошибку, то задача максимально упрощается, достаточно проверить заголовки.
     
    Root и genryford нравится это.
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.778
    Если Google знает о ссылках на профили пользователей, значит он их откуда-то взял, не так ли.

    Ссылки на пользователей могут быть расположены где-то на сайте.
     
  4. genryford

    genryford New Member Пользователи

    Регистрация:
    5 мар 2019
    Сообщения:
    4
    Город:
    Китай
    Благодарю за ответ.
    Вот этот момент хотелось бы узнать поподробнее, как это реализуется?
    Чтобы софт генерировал случайные значения и проверял ссылку?

    Бывают и такие сайты, где уникальное значение присутствует и с числовым значением, к примеры такое окончание ссылки:
    504715?username=LOGINUSERA
    Тут подбором наврятли получится.


    Возможно ранее был открыт список юзеров на сайте и гугл их проиндексировал.
    Но сейчас не могу найти этого каталога на сайте.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.778
    Перебор ничего не даст, слишком много комбинаций.

    Что вам мешает парсить выдачу Гугл - непонятно.
     
  6. genryford

    genryford New Member Пользователи

    Регистрация:
    5 мар 2019
    Сообщения:
    4
    Город:
    Китай
    Мешает сам гугл )
    Так как у него ограничение и даёт просмотреть только 30 страниц выдачи:

    [​IMG]
     
  7. leotop

    leotop Member Пользователи

    Регистрация:
    28 сен 2017
    Сообщения:
    9
    Согласен, но не на всех сайтах и желательно дополнительный многопоточный софт для проверок. Например, content downloader генерируем ссылки, xenu проверяем ответ сервера.
    Даже если не всех, то можем "поймать" всех с короткими логинами, иногда этого достаточно.

    Я делаю так, смотрю что за движок там стоит, нахожу похожие, смотрю как сделано у них.
    Возможно, что это какая-то вариация ЧПУ, а саму ссылку возможно получить по адресу
    index.php?username=504715
     
    genryford нравится это.
  8. leotop

    leotop Member Пользователи

    Регистрация:
    28 сен 2017
    Сообщения:
    9
    Код:
    inurl:user site:amway.ru Сергей
    inurl:user site:amway.ru Антон
    ...
     
    genryford нравится это.
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.698
    Город:
    Riga
    Альтернатива гуглу - duckduckgo
    Код:
    https://duckduckgo.com/?q=inurl%3Auser+site%3Aamway.ru+%D0%98%D0%B2%D0%B0%D0%BD&t=h_&ia=web
     
    genryford нравится это.
  10. genryford

    genryford New Member Пользователи

    Регистрация:
    5 мар 2019
    Сообщения:
    4
    Город:
    Китай
    Всем спасибо за ответы ;)
     
    kagorec нравится это.

Поделиться этой страницей