помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. exarh

    exarh New Member Пользователи

    Регистрация:
    15 сен 2010
    Сообщения:
    5
    Ссылки недоступны для гостей
    реально ли спарсить?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Реально.
    В каком виде нужны данные?
    Пример можно?
    Спасибо!
     
  3. exarh

    exarh New Member Пользователи

    Регистрация:
    15 сен 2010
    Сообщения:
    5
    Вам спасибо!
    нужны не данные, а пояснение как это программой сделать.
    А данные в виде:
    Ключ - количество запросов
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Готово! Вот, что получается:
     

    Вложения:

  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот файл проекта программы (требует последнюю версию, меню - файл - загрузить проект):
     

    Вложения:

  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Файл проекта в моем посте выше ^
    В принципе, из него все понятно, если будут вопросы - пишите, отвечу.
    Удачи в делах!
     
  7. kentastik

    kentastik New Member Пользователи

    Регистрация:
    25 дек 2011
    Сообщения:
    5
    друзья, помогите :) хочу спарсить картинки + описания к играм с 4pda.ru
    ссылки получил без проблем на нужные ветки. А дальше затык. Одна тема нормально парсится, на другой ерунда какая-то ваваливает.
    Примеры веток которые пробовал
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  8. exarh

    exarh New Member Пользователи

    Регистрация:
    15 сен 2010
    Сообщения:
    5
    Благодарю!
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Прикрепляю проект, который забирает первый пост:
     

    Вложения:

    • 4pda_ru.cdp
      Размер файла:
      25,8 КБ
      Просмотров:
      10
  10. kentastik

    kentastik New Member Пользователи

    Регистрация:
    25 дек 2011
    Сообщения:
    5
    спасибо большое, но я хотел его разбить на части чтобы потом сложить в базу отдельно картинки отдельно название отдельно описание... отдельно пост у меня получилось :)
     
  11. kentastik

    kentastik New Member Пользователи

    Регистрация:
    25 дек 2011
    Сообщения:
    5
    вся штука в том, что в некоторых постах почему-то после картинки он тянет еще левый текст, непонятно в общем чу-чуть
     
  12. kentastik

    kentastik New Member Пользователи

    Регистрация:
    25 дек 2011
    Сообщения:
    5
    вот мой проектик. если посмотреть его то видно что в каждой ссылке что зря творится.
     

    Вложения:

    • 4pda_ru_my.cdp
      Размер файла:
      25,8 КБ
      Просмотров:
      6
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Посмотрите как реализовано:
     

    Вложения:

  14. kentastik

    kentastik New Member Пользователи

    Регистрация:
    25 дек 2011
    Сообщения:
    5
    спасибо большое. не пойму правда, что я делал не так, вроде же и так пробовал... ну ладно со временем дойдет наверное. еще раз огромное спасибо за программку и за поддержку
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста, обращайтесь.
     
  16. rogodessa

    rogodessa New Member Пользователи

    Регистрация:
    15 авг 2010
    Сообщения:
    17
    Здравствуйте!
    Прошу помощи в решении одной проблемы парсинга... уже пол дня не могу выход придумать...
    Суть: делаю парсинг ответов mail.ru.... все границы настроены... с этим все нормально - что нужно было, то парсится.... Дальше хочу сразу загонять в MySQL (сайт на DLE)... В БД посты добавляются, но есть одна маленькая проблема... с картинками... точнее с путями на них...

    Итак...
    при парсинге CD подгружает картинки с именами image_1.jpg, image_2.jpg и т.д.... потом передаю имена PHP скрипту для дальнейшей записи в БД параметром
    Код:
    fotoautor=<CD_GRAN_4!>
    скрипт получает
    PHP:
    $fotoautor $_POST['fotoautor'];
    если просто вернуть в CD имя картинки через
    PHP:
    echo $fotoautor;
    то все ормально... получаю те же image_1.jpg, image_2.jpg и т.д....
    но задача стоит записать эти имена в БД.... и вот здесь начинаются проблемы...
    Формируем запрос к таблице постов БД (напомню, сайт на ДЛЕ)
    Код:
    $sql = mysql_query("INSERT INTO `dle_post` (`autor`, `date`, `short_story`, `xfields`, `title`, `descr`, `keywords`, `category`, `alt_name`) VALUES ('".$nameautor."', '".$firstdata."', '".$utoch."', '".$xfields."', '".$title."', '".$descr."', '".$keywords."', '".$category."', '".$alt_name."')") or die(mysql_error());
    где $xfields дополнительные поля статей в ДЛЕ сайте, они в свою очередь формируются следующим образом:
    Код:
    $xfields = 'fotoautor|'.$fotoautor.'||nameautor|'.$nameautor.'||emailautor|'.$emailautor.'|| и т.д.......;
    Если просто вернуть в CD через echo $xfields;, то получаю
    Код:
    fotoautor|image_1.jpg||nameautor|Лена Соколова||emailautor|helen_0000@mail.ru||
    Все супер, то что нужно... НО в БД попадает совсем другое
    Код:
    fotoautor|http://avt.foto.mail.ru/mail/helen_0000/_avatar||nameautor|Лена Соколова||emailautor|helen_0000@mail.ru||
    Подскажите, как заставить связку CD и PHP скрипта сохранить в БД не как http://avt.foto.mail.ru/mail/helen_0000/_avatar, а как image_1.jpg

    Заранее благодарен за оказанную помощь!
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте, грузить сообщения скриптом, вот так - Ссылки недоступны для гостей
    Скрипт загрузки вернет имя картинки, затем это имя отправить скрипту постинга в базу.

    Вот живой пример постинга контента в базу с параллельной загрузкой картинок на FTP (и вставкой их в базу):
    HTML:
    <PHP_SCRIPT_2=http://site.ru/insert.php>
    image=<PHP_SCRIPT=http://site.ru/components/com_virtuemart/shop_image/dwnldimgs.php>img_url=<CD_GRAN_3!>
    img_folder=product</PHP_SCRIPT>
    image2=<PHP_SCRIPT=http://site.ru/components/com_virtuemart/shop_image/dwnldimgs.php>img_url=<GETMORECONTENT><URL="http://6pm.com<CD_GRAN_18!>"><START="'thumbnail': '"><STARTCOUNT="1"><END="'"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>
    img_folder=product</PHP_SCRIPT>
    image3=<PHP_SCRIPT=http://site.ru/components/com_virtuemart/shop_image/dwnldimgs.php>img_url=<GETMORECONTENT><URL="http://6pm.com<CD_GRAN_18!>"><START="'thumbnail': '"><STARTCOUNT="2"><END="'"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>
    img_folder=product</PHP_SCRIPT>
    image2_BIG_url=<GETMORECONTENT><URL="http://6pm.com<CD_GRAN_18!>"><START="'normal': '"><STARTCOUNT="1"><END="'"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>
    image3_BIG_url=<GETMORECONTENT><URL="http://6pm.com<CD_GRAN_18!>"><START="'normal': '"><STARTCOUNT="2"><END="'"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>
    image2id=[INT_ID]1
    imgext=jpg
    sku=<CD_GRAN_1!>[INT_ID]
    name=<CD_GRAN_2!>
    id=[INT_ID]
    sdesc=<CD_GRAN_5!><CD_GRAN_6!>
    desc=<CD_GRAN_5!><CD_GRAN_6!>
    cat=<CD_GRAN_10!>
    brand=<CD_GRAN_17!>
    brandid=<STRTOINTID><CD_GRAN_17!></STRTOINTID>
    url=<CD_DOCURL!>
    check=<CD_GRAN_19!>
    price=<TOPRICE*100><CD_GRAN_9!></TOPRICE>
    </PHP_SCRIPT_2>
    Пояснения:
    Сначала срабатывает макрос PHP_SCRIPT (он грузит картинку на фтп по ее абсолютному url-адресу из интернета), на месте макроса PHP_SCRIPT остается ссылка на изображение (которое загружено на сервер)(эта ссылка будет отправлена в базу MySQL с помощью PHP_SCRIPT_2, который будет выполнен после PHP_SCRIPT).
    Затем макрос PHP_SCRIPT_2 постит данные в MySQL Базу. Адрес картинки отправится в параметре image=

    Ссылки недоступны для гостей - тут можно скачать скрипт загрузки изображений на FTP.
     
  18. rogodessa

    rogodessa New Member Пользователи

    Регистрация:
    15 авг 2010
    Сообщения:
    17
    Спасибо...
    Использовать PHP_SCRIPT_2 (назовем условно) после возврата пути к картинке не додумался... скрипт загрузки изображений на FTP уже сегодня мучил (или он меня), что-то ошибки выдавал.... ок, завтра еще поковыряю, опишусь что получиться....
    Еще раз благодарствую!
     
  19. rogodessa

    rogodessa New Member Пользователи

    Регистрация:
    15 авг 2010
    Сообщения:
    17
    Задачу выше решил. В БД запись идет так как надо...
    Спасибо за подсказку! Я бы и не додумался вставить один РНР скрипт в другой :)....

    Но теперь новая проблема :confused:... уже с самими изображениями...
    otvet.mai.ru формирует картинку аватара, как я понимаю, скриптом.... путь к картинке имеет такой вид
    Код:
    http://avt.foto.mail.ru/mail/valera-241/_avatar
    т.е. без расширения
    РНР скрипту пробую ссылку передать следующим образом
    Код:
    img_url=http://avt.foto.mail.ru/mail/<CD_GRAN_4!>.jpg
    в итоге: файлы с названиями картинок и расширением .jpg загружаются в папку на сервере, но просмотр ее не доступен, т.е. там совсем не картинка...

    Если поможете решить эту маленькую проблемку :rolleyes:, буду очень признателен...

    P.S. Конечно, есть выход из данной ситуации, напарсить отдельно кучу аватаров и рандомно вставлять их при парсинге, но хотелось бы чтобы всё соответствовало otvet.mai.ru..... да и приятнее когда каждому человеку соответствует свой уникальный аватар.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    http://avt.foto.mail.ru/mail/<CD_GRAN_4!>.jpg - такого файла нет, есть такой http://avt.foto.mail.ru/mail/<CD_GRAN_4!>
    Думаю, по этому скрипт не грузит...
    Нужно будет доработать скрипт для загрузки картинок.
    Я в PHP не силен, писал эти скрипты по простым мануалам.
     

Поделиться этой страницей