Подмена ссылок из документа на их конечный адрес (редирект)

Тема в разделе "Решение различных задач по парсингу", создана пользователем vpetrom, 9 июл 2014.

  1. vpetrom

    vpetrom New Member Пользователи

    Регистрация:
    27 мар 2013
    Сообщения:
    9
    Парсинг сайта требует собрать ссылки из повторяющихся границ в одном из столбиков CSV файла.

    но из огромного массива полученных ссылок теперь предстоит найти конечные ссылки (которые получает пользователь после перехода через редиректы)

    как можно на лету получать ссылку после редиректа?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте!

    Нажмите ctrl+h, включите там галочку "работать с редиректными ссылками", в шаблон вывода вставьте <CD_DOCURL!> (выведет ссылку после редиректа).

    С уважением к вам, Сергей.
     
  3. vpetrom

    vpetrom New Member Пользователи

    Регистрация:
    27 мар 2013
    Сообщения:
    9
    :) мы видимо друг друга не поняли. <CD_DOCURL!> я использую когда нужно узнать конечный урл документа, который я обрабатываю в данный момент парсером.

    Мне же нужно несколько иной вариант:
    например я обрабатываю веб страницу по ссылке -
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    В записях на стене содержаться ссылки
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Подобного функционала нет.
     
  5. СТЕПАН

    СТЕПАН New Member Супер Модератор

    Регистрация:
    10 мар 2013
    Сообщения:
    51
    Адрес:
    Казахстан
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    думаю то что нужно ;)

    Либо вариант по проще - Screaming Frog SEO Spider
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если это чаще, чем раз в год нужно, то можно подумать над реализацией такой функции)
     
  7. vpetrom

    vpetrom New Member Пользователи

    Регистрация:
    27 мар 2013
    Сообщения:
    9
    Уж будьте любезны, :bow:
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо! Учли.
    Скажите, такой момент. Если ссылка "битая" или сервер не ответил, что вставляем вместо такого URL тогда?
     
  9. vpetrom

    vpetrom New Member Пользователи

    Регистрация:
    27 мар 2013
    Сообщения:
    9
    если ссылка редирект не дает ответа, то в идеале должен быть выбор:
    - ничего не ставить
    - отдать код (статус) ошибки
    - Оставить "ссылку-редирект,
    - Вставить текст (по усмотрению пользователя)
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Готово. Потестируете? Жду вас в Skype. Спасибо!
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вроде все работает!
     
  12. vpetrom

    vpetrom New Member Пользователи

    Регистрация:
    27 мар 2013
    Сообщения:
    9
    Отличная новость. Пока на выходных ездил к родителям в гости над моими пожеланиями кипела работа.

    Спасибо. сегодня буду тестить.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.
    Рады помочь, обращайтесь.
     
  14. Ambassador

    Ambassador New Member Пользователи

    Регистрация:
    30 дек 2013
    Сообщения:
    10
    Здравствуйте! Пытаюсь получить конечный адрес после редиректа, но возвращается исходная ссылка. Подскажите, в чем может быть проблема.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Ссылка должна быть в теге a (a href="ссылка")
     
  16. Ambassador

    Ambassador New Member Пользователи

    Регистрация:
    30 дек 2013
    Сообщения:
    10
    Истину глаголите! Все получилось!:yes: Спасибо!:handshake:
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста =) Обращайтесь.
     
  18. T0nus

    T0nus New Member Пользователи

    Регистрация:
    30 янв 2015
    Сообщения:
    3
    Здравствуйте. У меня не получается сделать, к сожалению. На сайте стоит редирект вида:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Я этот кусок парсю, собственно из предпросмотра и выдернул. Потом обозначаю повторяющиеся границы:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    как следствие каждая ссылка, заключенная в тег <a> у меня выдёргивается, потом в настройке повторяющихся границ делаю так:
    [GETREDIRECT][VALUE][/GETREDIRECT]
    К сожалению результатом вместо вожделенных ссылок становится это:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Подскажите, пожалуйста, что я делаю не так?
     
  19. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Приложите проект или предоставьте в лс, обследуем и посмотрим что можно предпринять.
    На данный момент как вы заметили в программе реализована функция сбора ссылок из редиректов.
     
  20. T0nus

    T0nus New Member Пользователи

    Регистрация:
    30 янв 2015
    Сообщения:
    3
    Спасибо за быструю реакцию. Проект прилагаю.
     

    Вложения:

Поделиться этой страницей