Получить код всех страниц сайта в один документ

Тема в разделе "Решение различных задач по парсингу", создана пользователем Octavian, 8 ноя 2016.

  1. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Стоит задача не прибегая к сканеру сайтов получить в выводе суммарный код всех страниц сайта. С помощью GETURLSBYANCHORS мы можем получить список всех внутренних ссылок, но насколько я понимаю GETMORECONTENT работает только с одной ссылкой.
    Возможно ли решение такой задачи макросами?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Нет.

    Для меня не понятно, зачем придумывать что-то, когда можно пользоваться сканером сайтов.
     
    kagorec нравится это.
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    В настройке укажите сохранить в 1 документ, в шаблоне вывода вставьте [DOCSOURCE] и начинайте работать со сканера.
    В итоге весь арсенал странийц/ссылок найденный на сайте, сохранит в один документ
     
    Последнее редактирование: 8 ноя 2016
    Root нравится это.
  4. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Я неполно описал задачу, извините. Это нужно в проектах где мы ищем некоторые данные на сайте и не знаем на какой именно странице они расположены, например мейл адресс и нужно получить соответствие исходная ссылка - мейл . Если парсить с помощью сканера сайтов все внутренние ссылки, и по них искать мейл то потом нужно приводить полученные результаты к исходной ссылке, а это требует больших трудозатрат, особенно если их десятки тысяч. Было бы замечательно чтобы была возможность сразу задать в шаблоне искать по всему сайту и получить в выводе соответствие мейла исходной ссылке.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Надо подготовить решение.
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Возможно поможет, в шаблоне вывода используйте [EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS]
     
    stomp нравится это.
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Скачайте и установите доработанную версию программы:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Новая опция сканера сайтов ([PARAM]) позволяет решить вашу задачу.

    С уважением к вам, Сергей. 2016-11-09_09-35-14.png
     
    kagorec нравится это.
  8. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Спасибо Вам большое за оперативную доработку
    Но почему-то у меня в сканере сайтов при включенной опции "передавать значения [PARAM] от исходных ссылок к найденным" параметр к найденным ссылкам не добавляются как у вас на скриншоте
    И для получения соответствия исходная ссылка-мэйл нужно ли использовать макрос [PARAM] ? Как должен выглядеть шаблон вывода?
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пожалуйста.

    Все работает! Почему у вас не работает, я не знаю.

    2016-11-21_11-33-34.png

    Суть второго вопроса, простите, не понял.

    С уважением к вам, Сергей.
     
  10. Octavian

    Octavian Active Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    177
    Разобрался, у меня тоже работает, спасибо
    Суть второго вопроса в том как именно использовать параметр для решения моей задачи.
    Загружаю из сканера полученные ссылки вида Ссылки недоступны для гостей, в шаблоне прописываю CD_DOCURL! [CSVCS][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS] но в файле парсинга параметра нет
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.

    Для вставки параметра используется макрос [PARAM], а не <CD_DOCURL!>
     
  12. Min-Z-Drav

    Min-Z-Drav New Member Пользователи

    Регистрация:
    14 янв 2015
    Сообщения:
    32
    Здравствуйте, подскажите есть такая возможность чтобы с нескольких сайтов парсить информацию в одну запись базы данных?
    То есть чтобы зайти на одну ссылку спарсить, потом на вторую ссылку и на третью, а после что напарсил с трех сайтов отправить в одну запись базы данных?
    Без имени-1.jpg
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Создать три проекта для каждого сайта и запускать их по очереди (можно через встроенный планировщик ctrl+p).
    Ссылки недоступны для гостей
     
  14. golf4man

    golf4man New Member Пользователи

    Регистрация:
    9 мар 2013
    Сообщения:
    13
    Здравствуйте.

    Пожалуйста, подскажите, а как используя только сканер сайтов и чекбокс "Передавать значения [PARAM] от исходных ссылок к найденным" получить список найденных ссылок в формате:

    ---
    найденная_ссылка_1[PARAM]:url_где_была_найдена_ссылка
    найденная_ссылка_2[PARAM]:url_где_была_найдена_ссылка
    найденная_ссылка_3[PARAM]:url_где_была_найдена_ссылка
    и т.д.
    ---

    Пример показан на скриншоте, но этот список получен через функционал "Парсинг значений [PARAM] из кода WEB-страниц...".
     

    Вложения:

    • param_cd.png
      param_cd.png
      Размер файла:
      26 КБ
      Просмотров:
      7
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Доработал:
    2017-02-20_19-12-30.png

    В программе: Главное меню -> Файл -> Центр обновлений.

    С уважением к вам, Сергей..
     

Поделиться этой страницей