Как парсить ссылки через редирект

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Igor_st, 1 май 2013.

  1. Igor_st

    Igor_st New Member Пользователи

    Регистрация:
    8 фев 2013
    Сообщения:
    46
    Подскажите плиз :)

    Нужно собрать ссылки на файлы, но они идут через редирект

    типа Ссылки недоступны для гостей

    а файл сохраняется в формате RAR

    Спасибо
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    httpfox
    Ссылки недоступны для гостей
     
  3. Igor_st

    Igor_st New Member Пользователи

    Регистрация:
    8 фев 2013
    Сообщения:
    46
    Вот имею такой запрос

    И ни как не пойму как спарсить прямую ссылку на файл


    Ссылки недоступны для гостей

    GET /index.php?do=files&op=showfile&lid=2296 HTTP/1.1
    Host: САЙТ
    User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:20.0) Gecko/20100101 Firefox/20.0
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3
    Accept-Encoding: gzip, deflate
    Referer: Ссылки недоступны для гостей
    Cookie: __utma=54279860.1425213572.1367391689.1367415778.1367419264.4; __utmz=54279860.1367419264.4.3.utmcsr=yandex.ru|utmccn=(referral)|utmcmd=referral|utmcct=/; cookies_on=1; dle_forum_sessions=4441f06d47135c5dc35b029e0a71fb4f; forum_last=1367394113; PHPSESSID=4441f06d47135c5dc35b029e0a71fb4f; b=b; __utmc=54279860; __utmb=54279860.2.9.1367419283903
    Connection: keep-alive

    HTTP/1.1 302 Found
    Server: nginx
    Date: Wed, 01 May 2013 14:51:06 GMT
    Content-Type: application/octet-stream
    Transfer-Encoding: chunked
    Connection: keep-alive
    X-Powered-By: PHP/5.2.13-pl0-gentoo
    Expires: Thu, 19 Nov 1981 08:52:00 GMT
    Cache-Control: no-store, no-cache, max-age=1, s-maxage=1, must-revalidate, post-check=0, pre-check=0
    Pragma: no-cache
    Set-Cookie: dle_user_id=deleted; expires=Tue, 01-May-2012 14:51:05 GMT; path=/; domain=.САЙТ; httponly
    Set-Cookie: dle_password=deleted; expires=Tue, 01-May-2012 14:51:05 GMT; path=/; domain=.САЙТ; httponly
    Set-Cookie: dle_skin=deleted; expires=Tue, 01-May-2012 14:51:05 GMT; path=/; domain=.САЙТ; httponly
    Set-Cookie: dle_hash=deleted; expires=Tue, 01-May-2012 14:51:05 GMT; path=/; domain=.САЙТ; httponly
    Content-Disposition: attachment; filename=
    Location: /uploads/download/flashes-sgh/X670XEFD3.zip
    Last-Modified: Wed, 01 May 2013 08:51:06 +0400 GMT
    Content-Encoding: gzip
    ----------------------------------------------------------
    Ссылки недоступны для гостей

    GET /uploads/download/flashes-sgh/X670XEFD3.zip HTTP/1.1
    Host: САЙТ
    User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:20.0) Gecko/20100101 Firefox/20.0
    Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    Accept-Language: ru-RU,ru;q=0.8,en-US;q=0.5,en;q=0.3
    Accept-Encoding: gzip, deflate
    Referer: Ссылки недоступны для гостей
    Cookie: __utma=54279860.1425213572.1367391689.1367415778.1367419264.4; __utmz=54279860.1367419264.4.3.utmcsr=yandex.ru|utmccn=(referral)|utmcmd=referral|utmcct=/; cookies_on=1; dle_forum_sessions=4441f06d47135c5dc35b029e0a71fb4f; forum_last=1367394113; PHPSESSID=4441f06d47135c5dc35b029e0a71fb4f; b=b; __utmc=54279860; __utmb=54279860.2.9.1367419283903
    Connection: keep-alive

    HTTP/1.1 200 OK
    Server: nginx
    Date: Wed, 01 May 2013 14:51:06 GMT
    Content-Type: application/zip
    Content-Length: 22064848
    Last-Modified: Fri, 10 Apr 2009 01:00:50 GMT
    Connection: keep-alive
    Accept-Ranges: bytes
    ----------------------------------------------------------
     
  4. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    посмотрел сайт. беру свои слова назад. там ссылка в заголовке ответа.

    P.S. по идее, CD сам должен реагировать на редиректы, возможно, тут и не надо хитрых ходов.

    к примеру, исходная ссылка для парсинга -
    Ссылки недоступны для гостей

    1. передать куки из браузера
    2. в окошке customheaders ввести
    Referer:Ссылки недоступны для гостей
    3. в шаблоне вывода сделать так -
    <DOWNLOADFILE>http://САЙТ/index.php?do=files&op=showfile&lid=2296</DOWNLOADFILE>

    у меня вроде получилось, файл загрузился
     
    Последнее редактирование: 1 май 2013
  5. torygmile

    torygmile New Member Пользователи

    Регистрация:
    19 авг 2011
    Сообщения:
    9
    Тоже столкнулся с редиректом и не могу понять как вытащить ссылки.
    В общем вытащил CD ссылки типа Ссылки недоступны для гостей
    в браузере по ним сразу происходит переадресация на страницы другого сайта.
    Можно ли в CD получить ссылки после редиректа?

    PS: Видимо оставались какие то настройки от старого проекта, в новом редирект происходит, вопрос решен.
     
    Последнее редактирование: 20 дек 2013

Поделиться этой страницей