Как найти страницы с контактами на сайте и спарсить с них данные?

Тема в разделе "Решение проблем с использованием программы", создана пользователем GDie, 5 авг 2014.

  1. GDie

    GDie New Member Пользователи

    Регистрация:
    5 авг 2014
    Сообщения:
    14
    А есть вариант, чтобы ввести адреса сайтов, КД загрузил все ссылки с главной каждого сайта, прошёлся по ним и там поискал адреса?

    Или может чтобы поискал пункты меню (ссылки) с названием "контакты", "контактная информация" и т.д. и целенаправленно их грузил и на них искал, чтобы все ссылки с главной не грузить.

    Может и другие контакты таким образом собрать...
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Настривается на парсинг выдачи поисковика
    Обращается парсер к ссылке с запросом "контакты" к поисковику
    Распарсивает ссылки и готовит для следующего этапа
    Следующий этап распарсивания каждой ссылки полученной ранее, обрабатываем спец макросами EXTRACTEMAILS, EXTRACTPHONES, <CD_DOCURL!>
     
  3. GDie

    GDie New Member Пользователи

    Регистрация:
    5 авг 2014
    Сообщения:
    14
    А если список определённых сайтов уже есть?
    Не обращаться же для каждого сайта к поисковику, чтобы потом добавить страницу с контактами для каждого сайта, чтобы потом собрать адреса?

    И ещё вопрос, как разделить телефоны для EXTRACTPHONES? А то они все в кучу получаются.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста
     
  5. GDie

    GDie New Member Пользователи

    Регистрация:
    5 авг 2014
    Сообщения:
    14
    Появилась такая идея.
    А что если макросом [FIND] искать совпадения в [DOCSOURCE] и при нахождении выводить в качестве результата.
    Тогда можно было бы подобрать типовые адреса контактов "/contacts/", "/kontakt/" и тд и заносить эти адреса в отдельную ячейку.
    Ну а потом можно вручную, если собраны такие ссылки уже пройтись по ним...
    Как реализовать такую идею?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Какие именно совпадения нужно искать, простите?
    Живой пример можно, пожалуйста?
     
  7. GDie

    GDie New Member Пользователи

    Регистрация:
    5 авг 2014
    Сообщения:
    14
    Нужно на каждом сайте искать набор ссылок "/contacts/", "/kontakt/" и т.д. и добавлять эти ссылки в отдельный список или в отдельный столбец.
    Создавать для каждой вариации ссылки содержащей "/contacts/", "/kontakt/" отдельную границу?
    Просто вариаций подобных может быть много и границы засорять не хотелось бы. Хочется прописать все подобные вхождения и замены для них.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    А потом этот список парсить на наличие телефонов, почты и т.д.
     
    Последнее редактирование: 7 авг 2014
  8. Пётр_Викторович

    Пётр_Викторович New Member Пользователи

    Регистрация:
    19 фев 2014
    Сообщения:
    19
    У меня подобная проблема.
    Только на одном сайте надо найти все страницы где есть определённая ссылка.
    Т.е. мне нужны адреса страниц где есть ссылка с текстом checkout/cart (я предпологаю, что полная ссылка должна выглядеть так:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    ) .
    Как это сделать?
    Плохо знаю КД :(
     

Поделиться этой страницей