помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. rogodessa

    rogodessa New Member Пользователи

    Регистрация:
    15 авг 2010
    Сообщения:
    17
    Симпатии:
    0
    Я тоже далеко не гуру в PHP, но думаю, что проблема вот в чем:
    как вы сами ранее написали
    а путь _http://avt.foto.mail.ru/mail/valera-241/_avatar (или http://avt.foto.mail.ru/mail/<CD_GRAN_4!>) - это не путь к картинке, а путь к скрипту который подгружает эту картинку....

    Ладно не будем зацикливаться на моей проблеме... проставлю уже готовые аватары...
    И все равно вам спасибо за полезный совет с тем как можно использовать скрипты в шаблоне, в дальнейшем обязательно пригодиться. ;)
     
  2. KingPin

    KingPin New Member Пользователи

    Регистрация:
    8 янв 2012
    Сообщения:
    6
    Симпатии:
    0
    загрузка файлов

    всем привет

    не могу спарсить файлы с сайта __4пда.ру, подозреваю, что это из-за авторизации, помогите авторизоваться через пост запрос, там походу какой-то хитрый вход

    спасибо
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    Здравствуйте.

    Данные:
    HTML:
    referer=http%3A%2F%2F4pda.ru%2Fforum%2Findex.php%3F
    UserName=логин
    PassWord=пароль
    CookieDate=1
    Страница авторизации:
    HTML:
    http://4pda.ru/forum/index.php?act=Login&CODE=01
    Информацию взял из плагина Firefox Ссылки недоступны для гостей

    PS: Есть еще и второй способ - вставить из этого же плагина Firefox куки, например (эти куки для вас не подойдут, вам нужно получить свои из плагина):
    HTML:
    Cookie: modtids=; modpids=; session_id=9a47deb3a41c71173921d64be36924d7; globalmessupdmess=20%2C22; globalmessupdtime=1326047038; member_id=1841080; pass_hash=12fcdca2ff8519d9d6b662b67f00a385
    Во вкладке контент есть кнопка "дополнительно", пропишите эти cookies туда.

    PSS: Для того, чтобы проверить, сработала авторизация или нет, достаточно загрузить любую страницу форума полностью и проверить признаки авторизации (Вошли как: ... ( Выход ))
     

    Вложения:

    • 777.png
      777.png
      Размер файла:
      15,4 КБ
      Просмотров:
      4
  4. KingPin

    KingPin New Member Пользователи

    Регистрация:
    8 янв 2012
    Сообщения:
    6
    Симпатии:
    0
    спасибо, вроде так же делал, но не помогало, 1 способ все решил.

    а вот теперь вопрос, как мне сохранить названия файлов? я пытался сделать в шаблоне вывода так:

    <CD_GRAN_7!>
    <DOWNLOADFILE><CD_GRAN_7!></DOWNLOADFILE>

    но все равно я не получаю ссылку на файл, а только путь к уже скачанному файлу, причем два раза, даже если сделать так:

    <CD_GRAN_6!>
    <DOWNLOADFILE><CD_GRAN_7!></DOWNLOADFILE>

    границы парсинга 6 и 7 одинаковы, результат, как и в первом случае
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    HTML:
    [REPLACE(/{get}|{get})]<DOWNLOADFILE><CD_GRAN_7!></DOWNLOADFILE>[/REPLACE]
    Ссылки недоступны для гостей
     
  6. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Симпатии:
    0
    Кто подскажет адрес материала НАЧАЛА работы с Content Downloader, а не с середины?!

    Кто подскажет адрес материала НАЧАЛА работы с Content Downloader, а не с середины?! :mad:

    Запустил программу.
    А далее? :confused:
    Пошагово.

    Что открывать?
    Что и как заполнять?

    Что и где смотреть?
    Как оценивать полученное?
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    1) Сбор ссылок на товары (на панели инструментов "сканер сайтов");
    2) Настройка парсинга (вкладка "контент").

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  8. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Симпатии:
    0
    Спасибо, Сергей.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    Пожалуйста, если будут вопросы - пишите.
    Можете в личку скинуть адрес сайта я постараюсь найти время для того, чтобы сделать обучающее видео для парсинга этого сайта (выложу в хелп).
     
  10. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Симпатии:
    0
    Спасибо за любезное предложение.

    Хотел бы опробовать программу на этих сайтах - Ссылки недоступны для гостей
    Или на этом - Ссылки недоступны для гостей
     
  11. Леха

    Леха New Member Пользователи

    Регистрация:
    9 янв 2012
    Сообщения:
    8
    Симпатии:
    0
    скажите а можно спарсить структуру каталога сайта с содержимым?
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    Да, можно.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    Там очень мало страниц, альтернативу может дадите?
     
  14. Леха

    Леха New Member Пользователи

    Регистрация:
    9 янв 2012
    Сообщения:
    8
    Симпатии:
    0
    как парсить сквозные ссылки я понял, а вот как католог не очень (
    тыкните меня в хелп, так то вроде все просмотрел и прочитал

    или порядок действий опишите
     
    Последнее редактирование: 9 янв 2012
  15. KingPin

    KingPin New Member Пользователи

    Регистрация:
    8 янв 2012
    Сообщения:
    6
    Симпатии:
    0
    я хотел чтобы в документе осталось <реальное имя файла>.apk а не file.apk дабы потом все файлы переименовать обратно в их имена. Конечно лучше бы они вообще не переименовывались. Такое возможно?
     
  16. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Симпатии:
    0
    Мне требуется ПОНЯТЬ, как это работает. А не желание вас использовать для своей работы.
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    Задать любые имена для загружаемых файлов можно с помощью макроса шаблона вывода
    12,2.) DOWNLOADFILENAMES_ (задать имена файлов, которые загружаются макросом DOWNLOADFILE): Ссылки недоступны для гостей
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    Посмотрите видео Ссылки недоступны для гостей (только что записал). Суть работы с программой должна быть понятна. На днях постараюсь записать еще несколько видео, публиковать буду тут Ссылки недоступны для гостей
     
  19. Koldi

    Koldi New Member Пользователи

    Регистрация:
    9 янв 2012
    Сообщения:
    3
    Симпатии:
    0
    Подскажите может CD спарсить подобную страницу
    Ссылки недоступны для гостей
    нужно - название товара, наличие ну и цену.
    Проблема на мой взгляд, что всё это генерируется скриптом.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Симпатии:
    3.485
    Там проблем нет, всяко можно сделать, смотрите:
     

    Вложения:

Поделиться этой страницей