помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. terr

    terr New Member Пользователи

    Регистрация:
    16 дек 2010
    Сообщения:
    1
    как вытянуть контент с яндекс маркета, картинки маленкие картинки краткое описание полное описание и категории???
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    С Ямаркет проблемы, мне так и не удалось скачать оттуда картинки, с другими магазинами все ок.
     
  3. Дмитрий

    Дмитрий New Member Пользователи

    Регистрация:
    10 дек 2010
    Сообщения:
    8
    Исходный код страницы выглядит так:
    <B>Выполняет 40 видов строчек:</B><BR>
    • 16 рабочих строчек<BR>
    • 12 декоративных строчек<BR>
    • 5 строчек для вышивания<BR>
    • 4 оверлочных строчки<BR>
    • 3 петельных шва<BR><BR>

    живой, так же только без тегов

    А вытягивается, вот так:
    <B>Выполняет 40 видов строчек:</B><BR></p><p>16 рабочих строчек<BR></p><p>12 декоративных строчек<BR></p><p>5 строчек для вышивания<BR></p><p>4 оверлочных строчки<BR></p><p>3 петельных шва<BR><BR>

    В результате, на странице в сети это выглядит:
    Выполняет 40 видов строчек:


    16 рабочих строчек


    12 декоративных строчек


    5 строчек для вышивания


    4 оверлочных строчки


    3 петельных шва

    нету точек и лишние строки, кто нибудь встречался с этим, как исправить?
     
  4. Aleksey

    Aleksey New Member Пользователи

    Регистрация:
    6 янв 2011
    Сообщения:
    9
    на счет добавления тегов <p>,
    включаете чекбокс "в одну строку",
    а в настройках стираете в поле "заменять символы переносов строк на"
    значение <p>, пустым оно должно быть,
    а насчет:
    Код:
    &bull;
    который Вы точкой называете, может замену снять ";" в том же окошке,
    так не видя точно, что и с чем Вы делаете трудно сказать
     
    Последнее редактирование: 14 янв 2011
  5. Дмитрий

    Дмитрий New Member Пользователи

    Регистрация:
    10 дек 2010
    Сообщения:
    8
    спасибо, с пустыми строками помогло, а тега &bull; там просто нет, вместо него просто точка не берёт её.
     
  6. Aleksey

    Aleksey New Member Пользователи

    Регистрация:
    6 янв 2011
    Сообщения:
    9
    точно ступил :) не судьба мне то было исходняк этой страницы глянуть
     
  7. Константин

    Константин New Member Пользователи

    Регистрация:
    14 фев 2011
    Сообщения:
    4
    Добрый день. Взял программу для парсинга картинок с flickr.com. Можно ли впринципе, парсить картинки размером больше превью, скажем Medium 500? Превьюшки малы и мне не подходят.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Навскидку: да, можно.
    Сначала парсите ссылки на страницы с большими изображениями, затем оттуда сами большие изображения.
     
  9. Константин

    Константин New Member Пользователи

    Регистрация:
    14 фев 2011
    Сообщения:
    4
    Помогите тогда составить проект. Захожу на фликер, в поиск вбиваю job. Получаю такую ссылку Ссылки недоступны для гостей Вставляю ее в Content Downloader. Куда мне нужно подставить тег {num}?
    Что значит "Добавить ссылки с использованием прописных букв"?
    Конечная цель - парсинг картинок размером 500х...
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  11. din79

    din79 New Member Пользователи

    Регистрация:
    17 фев 2011
    Сообщения:
    2
    Доброе время суток. решил тут на досуге разобраться в программе.
    Использовал шаблон парсинг ответов с майл.ру выложенный в примерах. Но решил несколько изменить вариант парсинга ссылок с сайта. пошел не путем генерации по шаблону. а именно выбора одной ветки ответов.
    Попробовал добавить в фильтр варианты которые нужно игнорировать вида /рубрика/
    Спарсил все рубрики которые фигурируют на сайте для фильтра. подставил. и все равно проскакивают не тематические ответы.
    Т.е. вопрос в парсинге ссылок сканером сайтов. Может я не в ту сторону пробовать начал?
    Заранее спасибо.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей - первое видео. Смотреть с 1:09
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Сначала генерируем список страниц рубрики, а потом по этому списку (настроив фильтры) собираем урлы на ответы.
     
  14. Константин

    Константин New Member Пользователи

    Регистрация:
    14 фев 2011
    Сообщения:
    4
    Спасибо, получилось. Начал разбираться потихоньку, понял принцип. Инструмент хороший, но нужно вникать. Убежден, что полезность софта во многом определяется хорошей поддержкой. Еще раз благодарю.
     
  15. din79

    din79 New Member Пользователи

    Регистрация:
    17 фев 2011
    Сообщения:
    2
    Спасибо. продолжаю изучать дальше. Применение всех инструментов в комплексе при правильном подходе может намного упростить жизнь.
     
  16. xonix

    xonix New Member Пользователи

    Регистрация:
    26 фев 2011
    Сообщения:
    2
    Проколупался я в общем до полуноччи.... Теперь прошу помощи... не получается у меня пропарсить вот этот чудо сайт... Хотя он и похож на "мануальный..."
    Ссылки недоступны для гостей
    Лыжи не едут или я ....... Помогите попробуйте у вас получается?! у меня не генерирует "короткие ссылки" после применения фильтров...
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Проблема в том, что ссылок на объявления нет в коде страницы (всегда надо смотреть код). Блок ссылок на объявления выводится скриптом.
    Советую найти другой сайт.
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Если изучить эти ссылки, то их числовые значения находятся примерно в одном диапазоне. Советую генерировать такие ссылки по шаблону.
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это одна проблема. Вторая - сами объявления тоже выводятся скриптом. Советую найти альтернативу сайту.
     
  20. intellectual

    intellectual Гости

    http://www.abw.by/showcars/sell/paged/{NUM}/ шаг 20, создать список url с 40 до 55820 и получите список ссылок в которых нужно отсортировать все по url Ссылки недоступны для гостей
    Это даст возможность получить список объявлений. Дальше обрабатывайте сами объявления.
     

Поделиться этой страницей