помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    если вы не знаете как спарсить тот или иной сайт, пишите сюда и вам помогут.
     
  2. Argonavt

    Argonavt New Member Пользователи

    Регистрация:
    30 мар 2010
    Сообщения:
    15
    Ссылки недоступны для гостей хоть ты тресни ))) не могу хотя вытянул уже 4 сайта
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Проблематичный сайт, советую выбрать другой, в интернете полно альтернативы.
     
  4. Argonavt

    Argonavt New Member Пользователи

    Регистрация:
    30 мар 2010
    Сообщения:
    15
    Ссылки недоступны для гостей
    эту страницу вставляю как карту сайта - не берет ссылки вообще хотя там оглавление
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Потому что эта функция была оптимизирована под карты сайтов, в ближайшем будущем будет все брать, используйте фильтры ссылок.
     
  6. Argonavt

    Argonavt New Member Пользователи

    Регистрация:
    30 мар 2010
    Сообщения:
    15
    есть сайты на которых ссылка на скачивание видно только после того как залогинишься. Как их парсить? Может быть нужна такая фишка в программе?
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нужна, это в планах..., по срокам ничего не могу сказать, так как запланировано очень много.
     
  8. Seostatik

    Seostatik New Member Пользователи

    Регистрация:
    11 май 2010
    Сообщения:
    2
    Недавно начал пользоваться программой, может я чего-то не понимаю, но всёже, хочу вытянуть например вот это: Ссылки недоступны для гостей, с вложениями из под спойлера.
    И дальше вопрос сразу, можно ли вытягивать например отсюда Ссылки недоступны для гостей сразу весь контент, что находится под ссылками?
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей - Задайте нужные границы парсинга, тоесть откуда и до куда тянуть;
    Ссылки недоступны для гостей - Сначала спарсите ссылки на посты раздела с шаблоном http://www.altrock.su/music/classical/page/{num}/
    диапазон от 1 до 6. Затем по ссылкам спарсите контент, настроив границы парсинга. Если не справитесь - стучите в ICQ.
     
  10. Seostatik

    Seostatik New Member Пользователи

    Регистрация:
    11 май 2010
    Сообщения:
    2
    Вот, как раз хотел разобраться куда ставить {num}, спасибо.
    И всё же, можно ли доставать контент из-под спойлера? Чтобы увидеть его не надо быть зарегистрированным...
    Когда проходит парсинг просто появляется заголовок спойлера в общих результатах...
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Код контента из под спойлера, видимо, в другом месте страницы, а вызывается он яваскриптом. То есть, чтобы достать его, найдите это место и спарсите вместе с ним.
     
  12. WeXX

    WeXX El Perro Модератор Пользователи

    Регистрация:
    22 май 2010
    Сообщения:
    23
    Возможно офтоп, но больше не нашелся куда написать. Скажите, по какому принципу работает кнопка "вставить тег картинки (F8)" при подготовке импорта? т.е. как она выбирает какую картинку вставлять?:confused:
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Добавляете с диска файлы картинок и вставляете их теги.
     
  14. pensionary

    pensionary New Member Пользователи

    Регистрация:
    14 окт 2010
    Сообщения:
    3
    Как парсить вебархив?
    На урлы вида Ссылки недоступны для гостей или Ссылки недоступны для гостей
    сканер сайтов ничего не выдает
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Программа не работает с веб-архив.орг
     
  16. FANTiK123

    FANTiK123 New Member Пользователи

    Регистрация:
    2 окт 2010
    Сообщения:
    38
    как логиниться вконтакте, сделал все по видео, но получается залогиниться
    Данные для отправки
    адрес страницы авторизации
     
  17. FANTiK123

    FANTiK123 New Member Пользователи

    Регистрация:
    2 окт 2010
    Сообщения:
    38
    Хотелось бы из обсуждения вконтакте сделать как бы живые коменты для wordpress.
    Шаблон вывода для wp выглядит вот так
    Из обсуждение я "выдираю" (коменты, дату добавления комента и имя автора).
    В шаблоне сделал вот так
    (расположение не важно)
    Естественно у меня вся инфа скопом спарсилась, то есть сначала например все ники собрало, потом даты, потом коменты. Как сделать так чтоб по очереди были они
    Ник 1
    Дата 1
    Коммент 1
    Ник 2
    Дата 2
    Коммент 2
    ..........
    Ник n
    Дата n
    Коммент n
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Используйте шаблон вывода и макрос CD_CYCLE_GRAN_ALL! ;)
     
  19. Дмитрий

    Дмитрий New Member Пользователи

    Регистрация:
    10 дек 2010
    Сообщения:
    8
    Не могу разобраться с "повторяющимися границами".
    Проблема, например и.магазин или я.маркет и т.д., там на одной странице порядка 10 наименований товара (название и краткое описание), не могу вытащить эти наименования, вытаскивается только по одному, первому наименованию с каждой страницы.:confused:

    Выложите кто нибудь проект, с помощью которого можно сделать по аналогии.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Уже...
     

Поделиться этой страницей