Как спарсить адрес сайта на spravker ru

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем sotex2, 25 янв 2021.

  1. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    Доброго времени, подскажите как вытащить название сайта со страницы. на странице название сайта отображается, а в коде выводится так "<span class="js-pseudo-link" data-url="aHR0cHM6Ly9NYW5vbm8ucnU="></span>". Не получается зацепиться, как в видео показано.
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Он на spravker ru выводится скриптом.

    Соответственно, нужно парсить с использованием WBAppCEF
     

    Вложения:

  3. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    подскажите, какой материал из помощи можно почитать, чтобы вытащить в моем случаи адрес сайта со страниц с использованием WBAppCEF. пока не получается и не могу понять как с использованием WBAppCEF захватить название сайта.
     
  4. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    спасибо все получилось, был чек бокс выключен в WBA.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я выше проект приложил. Просто загрузите файл проекта.
     
    sotex2 нравится это.
  6. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    спасибо, чек бокс был выключен. работает, но все равно не понял как.
     
  7. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород

    подскажите, каким макросом можно обернуть в шаблоне вывода эти названия сайтов, чтобы потом email извлечь. пробовал [EXTRACTEMAILS]<CD_GRAN_6!>[/EXTRACTEMAILS] не хочет.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     

    Вложения:

  9. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    Спасибо за помощь, встречайте.
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  12. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    вам спасибо
     
    Root нравится это.
  13. Fester

    Fester New Member Пользователи

    Регистрация:
    12 дек 2015
    Сообщения:
    5
    Город:
    Санкт-Петербург
    Привет всем! Подскажите как спарсить все ссылки с сайта

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    ----пропущенные ссылки как скачать?
    Ссылки недоступны для гостей

    заранее благодарю!
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей
     

    Вложения:

  15. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    Здравствуйте, посмотрите скрин
     

    Вложения:

    • скрин.png
      скрин.png
      Размер файла:
      440,4 КБ
      Просмотров:
      11
  16. Fester

    Fester New Member Пользователи

    Регистрация:
    12 дек 2015
    Сообщения:
    5
    Город:
    Санкт-Петербург
    Диапазон изменяющейся части я понимаю как сделать вручную, возможно я неверно задал вопрос или не понял вашего ответа.
    Меня интересует сбор url в сканере сайта, во время сканирования он находит только те ссылки, которые явно указаны на странице. Вопрос в том, чтобы он сразу в сканер выгружал все существующие ссылки.

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    ----/page-6/
    ----/page-7/
    ----/page-8/ и т.д.
    Ссылки недоступны для гостей

    Вероятно в настройках функции поиска ссылок для сканера сайта есть ответ, но, прошу прощения, с наскока не осилил эту формулу значений

    [​IMG]
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я выше приложил проект и ссылку на справку. Проект собирает все ссылки с указанной рубрики. В чем проблема?
     
    Fester нравится это.
  18. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    вот готовый проект по парсингу информации, а ссылки соберете, как вам написали выше.
     

    Вложения:

    dimochkaorg, Root и Fester нравится это.
  19. Fester

    Fester New Member Пользователи

    Регистрация:
    12 дек 2015
    Сообщения:
    5
    Город:
    Санкт-Петербург
    Здравствуйте! простите за оффтоп, webappcef есть возможность запустить в фоне? Чтобы не вылетало 50 окон. Спасибо
     
  20. sotex2

    sotex2 Member Пользователи

    Регистрация:
    12 авг 2020
    Сообщения:
    130
    Город:
    нижний новгород
    Здравствуйте, снимите чекбокс, как показано на скрине.
     

    Вложения:

    • скрин.png
      скрин.png
      Размер файла:
      477,8 КБ
      Просмотров:
      16
    Root и Fester нравится это.

Поделиться этой страницей