Сохранение utm меток

Тема в разделе "Решение различных задач по парсингу", создана пользователем Семен Семеныч, 10 ноя 2021.

  1. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Здравствуйте, у меня есть таблица формата
    ИНН ; E-mail1, email2,Email3

    Нужно взять домен из E-mail пройтись по контактным страницам сайта и собрать с них дополнительные e-mail и сопоставить это все с ИНН

    Пока я сделал только первую часть за счет UTM меток aaa.ru?utm_source=770222*.
    В excel добавил метку к домену прошелся и собрал, но есть сайты, где контакты прописаны не на основной странице а в подстраницах, например /контакты/, /contacts/ и т.д. сами по себе страницы я могу найти через сканер URL, но при парсинге страниц удаляются utm метка. Есть ли возможность в сканере указать, чтобы при поиске страниц он не удалял UTM метку?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  3. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Страницы. но мне надо потом понять какому ИНН этот сайт принадлежал?
    Таблица с кучей ИНН
    ИНН "11111"

    Соответствуют несколько E-mail
    aaa@domain1.ru
    aaa@domain2.ru
    aaa@domain3.ru

    Удаляю первую часть и добавляю хвост с меткой
    domain1.ru?utm_inn=11111
    domain2.ru?utm_inn=11111
    domain3.ru?utm_inn=11111

    и собираю с этих сайтов ссылки на страницы контакта
    Фильтр ссылок - фильтры
    Например:
    kontakt.htm
    contact
    contacts.html

    Хотелось бы, чтобы не удалялись метки, с собранных адресов, а было что-то типа

    domain1.ru/kontakt.htm?utm_inn=11111
    domain2.ru/contacts.html?utm_inn=11111
    domain3.ru/contact/?utm_inn=11111

    Тогда через шаблон вывода смогу через <CD_DOCURL!> получить столбец с адресами и метками

    domain1.ru/kontakt.htm?utm_inn=11111
    domain2.ru/contacts.html?utm_inn=11111
    domain3.ru/contact/?utm_inn=11111

    и в дальнейшем сопоставить с исходным файлом.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не игнорируйте мой ответ

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    В этом случае, через <CD_DOCURL!> вы можете извлекать из URL любую информацию путем поиск-замены.

    Лучше использовать не utm параметр ссылки, а записать в конец ссылки нужные данные через символ решетки (никак не влияет на запрос) или после [PARAM]: (все, что после этого оператора в ссылке можно выводить в шаблоне вывода с помощью макроса [PARAM])
     
    Slavikprof нравится это.
  5. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Спасибо за идею с #

    У меня ссылки вида appec.spb.ru/#7804098253
    Но при парсинге в логах написано, файл не сохранен, результирующий документ оказался пустым. При переходе в браузере страница открывается Ссылки недоступны для гостей

    Вопрос, как настроить сканер, чтобы он открывал страницы? встречались домены, где в начале на Ссылки недоступны для гостей сайта.ру происходит, браузер это делает, а сканер нет
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Третий раз вам отвечаю.

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Вы упорно продолжаете использовать сканер сайтов для вашей задачи.

    Почему вы не хотите использовать специальный макрос?
     
  7. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    Раньше таким способом не пользовался, как по ссылке вставил код макроса, запускаю сбор и из 9000 доменов, 1000 пишет результирующий документ оказался пустым. А с браузера открываются.
     

    Вложения:

    • work1.png
      work1.png
      Размер файла:
      82,9 КБ
      Просмотров:
      6
    • work2.png
      work2.png
      Размер файла:
      38,6 КБ
      Просмотров:
      5
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Значит по этим ссылкам не было найдено контактных данных.
     
  9. Семен Семеныч

    Семен Семеныч New Member Пользователи

    Регистрация:
    6 мар 2015
    Сообщения:
    56
    На самом деле они там есть, из примера выше
    асзкмс.рф/#2703000015 - раздел контакты
    аям.рф/#1402045638 - раздел контакты

    Просто скрипт по каким то причинам не редиректит как это делает браузер с домена
    Ссылки недоступны для гостей
    на Ссылки недоступны для гостей
    а сообщает, что страница пустая

    Бывает ситуация как здесь, когда с одного домена происходит редирект на другой домен, скрипт также сообщает, что пустой документ
     

Поделиться этой страницей