помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. rogodessa

    rogodessa New Member Пользователи

    Регистрация:
    15 авг 2010
    Сообщения:
    17
    Я тоже далеко не гуру в PHP, но думаю, что проблема вот в чем:
    как вы сами ранее написали
    а путь _http://avt.foto.mail.ru/mail/valera-241/_avatar (или http://avt.foto.mail.ru/mail/<CD_GRAN_4!>) - это не путь к картинке, а путь к скрипту который подгружает эту картинку....

    Ладно не будем зацикливаться на моей проблеме... проставлю уже готовые аватары...
    И все равно вам спасибо за полезный совет с тем как можно использовать скрипты в шаблоне, в дальнейшем обязательно пригодиться. ;)
     
  2. KingPin

    KingPin New Member Пользователи

    Регистрация:
    8 янв 2012
    Сообщения:
    6
    загрузка файлов

    всем привет

    не могу спарсить файлы с сайта __4пда.ру, подозреваю, что это из-за авторизации, помогите авторизоваться через пост запрос, там походу какой-то хитрый вход

    спасибо
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Данные:
    HTML:
    referer=http%3A%2F%2F4pda.ru%2Fforum%2Findex.php%3F
    UserName=логин
    PassWord=пароль
    CookieDate=1
    Страница авторизации:
    HTML:
    http://4pda.ru/forum/index.php?act=Login&CODE=01
    Информацию взял из плагина Firefox Ссылки недоступны для гостей

    PS: Есть еще и второй способ - вставить из этого же плагина Firefox куки, например (эти куки для вас не подойдут, вам нужно получить свои из плагина):
    HTML:
    Cookie: modtids=; modpids=; session_id=9a47deb3a41c71173921d64be36924d7; globalmessupdmess=20%2C22; globalmessupdtime=1326047038; member_id=1841080; pass_hash=12fcdca2ff8519d9d6b662b67f00a385
    Во вкладке контент есть кнопка "дополнительно", пропишите эти cookies туда.

    PSS: Для того, чтобы проверить, сработала авторизация или нет, достаточно загрузить любую страницу форума полностью и проверить признаки авторизации (Вошли как: ... ( Выход ))
     

    Вложения:

    • 777.png
      777.png
      Размер файла:
      15,4 КБ
      Просмотров:
      4
  4. KingPin

    KingPin New Member Пользователи

    Регистрация:
    8 янв 2012
    Сообщения:
    6
    спасибо, вроде так же делал, но не помогало, 1 способ все решил.

    а вот теперь вопрос, как мне сохранить названия файлов? я пытался сделать в шаблоне вывода так:

    <CD_GRAN_7!>
    <DOWNLOADFILE><CD_GRAN_7!></DOWNLOADFILE>

    но все равно я не получаю ссылку на файл, а только путь к уже скачанному файлу, причем два раза, даже если сделать так:

    <CD_GRAN_6!>
    <DOWNLOADFILE><CD_GRAN_7!></DOWNLOADFILE>

    границы парсинга 6 и 7 одинаковы, результат, как и в первом случае
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    HTML:
    [REPLACE(/{get}|{get})]<DOWNLOADFILE><CD_GRAN_7!></DOWNLOADFILE>[/REPLACE]
    Ссылки недоступны для гостей
     
  6. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Адрес:
    Russia
    Кто подскажет адрес материала НАЧАЛА работы с Content Downloader, а не с середины?!

    Кто подскажет адрес материала НАЧАЛА работы с Content Downloader, а не с середины?! :mad:

    Запустил программу.
    А далее? :confused:
    Пошагово.

    Что открывать?
    Что и как заполнять?

    Что и где смотреть?
    Как оценивать полученное?
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1) Сбор ссылок на товары (на панели инструментов "сканер сайтов");
    2) Настройка парсинга (вкладка "контент").

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  8. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Адрес:
    Russia
    Спасибо, Сергей.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста, если будут вопросы - пишите.
    Можете в личку скинуть адрес сайта я постараюсь найти время для того, чтобы сделать обучающее видео для парсинга этого сайта (выложу в хелп).
     
  10. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Адрес:
    Russia
    Спасибо за любезное предложение.

    Хотел бы опробовать программу на этих сайтах - Ссылки недоступны для гостей
    Или на этом - Ссылки недоступны для гостей
     
  11. Леха

    Леха New Member Пользователи

    Регистрация:
    9 янв 2012
    Сообщения:
    8
    скажите а можно спарсить структуру каталога сайта с содержимым?
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Да, можно.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Там очень мало страниц, альтернативу может дадите?
     
  14. Леха

    Леха New Member Пользователи

    Регистрация:
    9 янв 2012
    Сообщения:
    8
    как парсить сквозные ссылки я понял, а вот как католог не очень (
    тыкните меня в хелп, так то вроде все просмотрел и прочитал

    или порядок действий опишите
     
    Последнее редактирование: 9 янв 2012
  15. KingPin

    KingPin New Member Пользователи

    Регистрация:
    8 янв 2012
    Сообщения:
    6
    я хотел чтобы в документе осталось <реальное имя файла>.apk а не file.apk дабы потом все файлы переименовать обратно в их имена. Конечно лучше бы они вообще не переименовывались. Такое возможно?
     
  16. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Адрес:
    Russia
    Мне требуется ПОНЯТЬ, как это работает. А не желание вас использовать для своей работы.
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Задать любые имена для загружаемых файлов можно с помощью макроса шаблона вывода
    12,2.) DOWNLOADFILENAMES_ (задать имена файлов, которые загружаются макросом DOWNLOADFILE): Ссылки недоступны для гостей
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Посмотрите видео Ссылки недоступны для гостей (только что записал). Суть работы с программой должна быть понятна. На днях постараюсь записать еще несколько видео, публиковать буду тут Ссылки недоступны для гостей
     
  19. Koldi

    Koldi New Member Пользователи

    Регистрация:
    9 янв 2012
    Сообщения:
    3
    Подскажите может CD спарсить подобную страницу
    Ссылки недоступны для гостей
    нужно - название товара, наличие ну и цену.
    Проблема на мой взгляд, что всё это генерируется скриптом.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Там проблем нет, всяко можно сделать, смотрите:
     

    Вложения:

Поделиться этой страницей