Парсинг ссылок с динамичного сайта (узнать адреса страниц с комментариями)

Тема в разделе "Общее", создана пользователем monarxreg, 25 сен 2017.

  1. monarxreg

    monarxreg New Member Пользователи

    Регистрация:
    25 сен 2017
    Сообщения:
    4
    Добрый день,
    Есть сайт на котором продаются определенный софт.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Задача спарсить ссылки на профили пользователей, которые пишут комментарии к продукту.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Трудность в том что не понятно как реализована система вывода контента на сайте.
    Вот пример
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Вкладка обсуждение, я помещал все ссылки на все страницы (&page=3 ... &page=10), а он парсит всего несколько пользователей. Хотя на страницы их видно. Как спарсить ссылки на профили на этом сайте.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.273
    ctrl+h обработку DOM включили?
     
  3. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.741
    Город:
    Сочи
    monarxreg и kagorec нравится это.
  4. monarxreg

    monarxreg New Member Пользователи

    Регистрация:
    25 сен 2017
    Сообщения:
    4
    Простите что не сразу ответил. Спасибо вам, помогли!
     
    Root нравится это.
  5. monarxreg

    monarxreg New Member Пользователи

    Регистрация:
    25 сен 2017
    Сообщения:
    4
    Добрый день, уважаемый Root. Долгое время ваш способ работал, но сейчас данная функция перестала работать, ну то есть в заголовке адрес тот же остался, а когда по нему заходишь в браузере или в программе парсинга сайтов, пишет ошибка 404 страница не найден. Может быть Вы или кто-то другой, может подсказывать, какой еще есть способ парсить ссылки с данной страницы.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Заранее всем спасибо!
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.377
    wbapp подключайте (ctrl+h) галочка Контент
     
    monarxreg нравится это.
  7. lavr2004

    lavr2004 Member Пользователи

    Регистрация:
    31 май 2013
    Сообщения:
    25
    Если этот кусок кода на странице вам ни о чем не говорит, то тогда вам поможет только WBApp:))

    function overridePermalinks(placeholder,pageNum)
    {
    var permalinks = getElementsByClass("permalink",placeholder);
    if(!permalinks || !permalinks.length)
    return;
    for(var i = 0; i < permalinks.length; i++)
    {
    var a = permalinks;
    var commentIndex = a.href.lastIndexOf('#comment_');
    if(!commentIndex || (commentIndex + '#comment_'.length) > a.href.length)
    continue;
    var id = parseInt(a.href.substring(commentIndex + '#comment_'.length));
    if(!id)
    continue;
    var url = 'Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! ' + pageNum + '&comment=' + id;
    a.href = url;
    }
     
    monarxreg нравится это.
  8. monarxreg

    monarxreg New Member Пользователи

    Регистрация:
    25 сен 2017
    Сообщения:
    4
    Спасибо всем. Через "wbapp подключайте (ctrl+h) галочка Контент" работает.
     

Поделиться этой страницей