Поиск email адресов со ссылок, найденных по перечисленным анкорам (контакты, связаться с нами...)

Тема в разделе "Разное", создана пользователем kenny872012, 18 мар 2018.

  1. kenny872012

    kenny872012 Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    59
    Здравствуйте. Помогите пожалуйста разобраться. Есть шаблон вывода для поиска email адресов на главной странице сайта, вида:

    <CD_DOCURL!>[CSVCS][REPLACE([FILTERSTRINGS]lodash|delete{break}[FILTERSTRINGS]Rating|delete{break}[FILTERSTRINGS]zepto|delete{break}[FILTERSTRINGS]react|delete{break}[FILTERSTRINGS]example@|delete{break}[FILTERSTRINGS]youemail|delete{break}[FILTERSTRINGS].svg|delete{break}[FILTERSTRINGS].io|delete{break}[FILTERSTRINGS].gif|delete{break}[FILTERSTRINGS]mail@mail|delete{break}[FILTERSTRINGS]test@test|delete{break}[FILTERSTRINGS].jpg|delete{break}[FILTERSTRINGS].png|delete{break}[FILTERSTRINGS]min.js|delete{break}[FILTERSTRINGS]slick@|delete{break}[FILTERSTRINGS]mywixsite|delete{break}{br}|;{break})][EXTRACTEMAILS][DOCSOURCE][/EXTRACTEMAILS][/REPLACE]

    Как прописать в этот шаблон условие: если результат оказался пустым, найти страницы контактов по анкорам: контакты, customer-service, contacts, контактная информация, contact, kontakts, communications, контактные данные, Реквизиты, Информация, information, about, О компании, О нас, Адрес и телефон, Адрес, feedback, написать письмо, address, feedback, Organization и применить к ним этот шаблон? Т.е. простыми словами если не найден email на главной странице, искать email на странице контактов? Фаил проекта прилагаю.
     

    Вложения:

    Последнее редактирование: 18 мар 2018
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
    Здравствуйте.

    Макросом [CHECKENTRY2] проверяете, найдены ли имейлы на странице. Если они не найдены, то с помощью макроса [SAVETOFILE] записываете ссылку (<CD_DOCURL!>) в файл на диске.

    Далее создаете новый проект парсинга, в котором ссылки будут браться из сохраненного ранее файла на диске с помощью функции загрузки URL-адресов из файла (shift+ctrl+u).

    В новом проекте используете макрос [GETURLSBYANCHORS] для получения ссылок по перечисленным анкорам и сохраняете их в файл на диске с помощью макроса [SAVETOFILE].

    Далее создаете третий проект, в котором ссылки будут браться из сохраненного ранее файла на диске (уже второго файла) с помощью функции загрузки URL-адресов из файла (shift+ctrl+u) и парсите с них e-mail адреса макросом [EXTRACTEMAILS].

    Три файла проекта поместите в планировщик (ctrl+p) для их последовательного запуска.

    Алгоритм хорошо продуман и должен работать!
     
  3. kenny872012

    kenny872012 Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    59
    Спасибо
     
    Root нравится это.
  4. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
    Пожалуйста
     
  5. kenny872012

    kenny872012 Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    59
    Еще вопрос при выполнении макроса [SAVETOFILE] ссылки берутся в кавычки, есть ли способ сохранять ссылки в txt без кавычек?
     
  6. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
  7. kenny872012

    kenny872012 Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    59
    Благодарю
     
    Root нравится это.
  8. kenny872012

    kenny872012 Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    59
    Надоел наверное с вопросами,но последний. На примере этого сайта 58dom.com по какой-то причине параметр NODUP не удаляет дубли ссылок, где я допустил ошибку?
    [GETURLSBYANCHORS(контакты||customer-service||contact||контактная информация||contact||kontakts||communications||контактные данные||Реквизиты||Инфо||information||about||О компании||О нас||Адреса и телефоны||Адрес||feedback||написать письмо||address||feedback||Organization[NODUP])][DOCSOURCE][/GETURLSBYANCHORS]
     
  9. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
    Предоставьте ссылку на WEB-страницу
     
  10. kenny872012

    kenny872012 Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    59
  11. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  12. kenny872012

    kenny872012 Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    59
    Благодарю. Проект работает как часы!
     
    Root нравится это.
  13. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
    Пожалуйста
     
  14. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
    Также добавил еще один параметр [NOMAINPAGE] (чтобы главные страницы сайтов не добавляло в результат) + обрезание частей ссылок с решеткой.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  15. Felix_b

    Felix_b Active Member Пользователи

    Регистрация:
    30 мар 2017
    Сообщения:
    98
    Доброго времени!
    Подскажите пожалуйста как в результат работы макроса [GETURLSBYANCHORS] поместить [PARAM] в конце каждого найденного анкора ?


    С большим уважением к Вам.
     
  16. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
    Здравствуйте.

    Примените поиск-замену:
    Код:
    {get}|{get} [PARAM][LINEMODE]
    
    Пример применения: [REPLACE({get}|{get} [PARAM][LINEMODE]{break}{br}|, )][GETURLSBYANCHORS([ADDANCHOR]Контакты||Контактная информация)][DOCSOURCE][/GETURLSBYANCHORS][/REPLACE]
     
    Felix_b нравится это.
  17. Felix_b

    Felix_b Active Member Пользователи

    Регистрация:
    30 мар 2017
    Сообщения:
    98
    Большое спасибо за очередную помощь. В долгу не остаюсь.
     
    Root нравится это.
  18. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    268
    Приветствую!

    Вопрос такой: возможно ли при получении ссылок с PARAM по анкорам GETURLSBYANCHORS передать в PARAM значения от исходных ссылок? Надеюсь, понятно изъяснился. :)
     
  19. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    268
    Никак?
     

Поделиться этой страницей