Парсить ссылки по определенному анкору или части анкора

Тема в разделе "Решение различных задач по парсингу", создана пользователем NAS9LbNIK, 17 авг 2017.

  1. NAS9LbNIK

    NAS9LbNIK New Member Пользователи

    Регистрация:
    21 авг 2015
    Сообщения:
    14
    Добрый день! Прошу помощи у знающих.
    Опишу суть:
    Есть пара сотен доменов(интернет магазинов), задача вычленить с них урлы на раздел оплата
    т.е обычно есть раздел на сайте: оплата или как оплатить способы, оплаты, оплата и доставка
    вот мне нужно проверить есть такие совпадения и если есть то сохранять ссылку именно на раздел оплаты
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей (Извлечение из HTML-кода URL-адресов с желаемыми анкорами ([GETURLSBYANCHORS]))

    С уважением к вам, Сергей...
     
    NAS9LbNIK нравится это.
  3. NAS9LbNIK

    NAS9LbNIK New Member Пользователи

    Регистрация:
    21 авг 2015
    Сообщения:
    14
    Шикарно! Спасибо большое!

    Ответьте пожалуйста ещё на 2 вопроса:

    1.Допустим я хочу узнать есть ли на странице слово яндекс деньги или хоть какое либо упоминание и вывести да\нет как мне это реализовать?
    я использую - [CHECKENTRY(yandex||yandex money||yandexmoney||яндекс деньги||яд||YaMoney||яндекс-деньги||Яндекс-Деньги)][DOCSOURCE][/CHECKENTRY]
    и чет фигня) выводит весь код документа...

    2.И вопрос по телелефонам использую [EXTRACTPHONES][ONELINE:-][DOCSOURCE][/ONELINE][NODUP][/EXTRACTPHONES]
    в экселе выводится все в одну строку без разделений...как сделать чтобы каждый номер выводился номер/номер/номер и без дублей и без шлака?

    Пример шлака урл Ссылки недоступны для гостей
    парсит:
    Ссылки недоступны для гостей
    хотя реальный номер там один
     
    Последнее редактирование: 17 авг 2017
  4. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    1. Используйте в макросе
    THENTEXT
    Ссылки недоступны для гостей
     
    NAS9LbNIK нравится это.
  5. NAS9LbNIK

    NAS9LbNIK New Member Пользователи

    Регистрация:
    21 авг 2015
    Сообщения:
    14
    Спасибо!
    От части разобрался..но, как при поиске слова yandex отсеять мусор вида:
    <meta name="yandex-verification" content="cd02886afbec44c7" />
    <!--Yandex.Metrika-->

    Вопрос по номерам телефонов все ещё открыт.
     
    Последнее редактирование: 17 авг 2017
  6. aresa

    aresa Well-Known Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    180
    Поиском-заменой отсеять. По номерам телефонам к сожалению не подскажу - не сталкивался с такой задачей
     

Поделиться этой страницей