помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Смотреть надо вот тут - Ссылки недоступны для гостей. Самое первое видео, начиная с 1 мин 25 секунд. Как раз показано как парсить по диапазону.

    Вам надо взять вот эту ссылку
    Код:
    http://forum.say7.info/forum66-3925.html
    1. По ней выстроить диапазон. Красным выделено последняя страница, цифра, которую надо вставить в диапазон - 3925, шаг 25, первая цифра 0.
    Сама ссылка будет вот такой
    Код:
    http://forum.say7.info/forum66-{num}.html
    Далее, задаёте "Добавить ссылки", выбираете "Использовать диапазон" и получаете 158 ссылок на страницы с темами.

    2. Потом надо будет ещё раз задать получение ссылок на темы. Это делается в разделе "Ссылки"

    Если и на этот раз не разберётесь,- стучитесь в Скэйп, придётся показывать.
     
    Последнее редактирование: 24 мар 2012
  2. Evgeniyuser

    Evgeniyuser New Member Пользователи

    Регистрация:
    24 мар 2012
    Сообщения:
    16
    На этот раз попробую разобраться). Спасибо большое.
     
  3. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ничего сложного там нет. Один раз разобравшись, потом сами будете знать как это делается
     
  4. Evgeniyuser

    Evgeniyuser New Member Пользователи

    Регистрация:
    24 мар 2012
    Сообщения:
    16
    Спасибо. С этим разобрался. Подскажите пожалуйста еще: можно ли несколько страниц комментариев одной темы объединить в одну страницу? Понятно, что можно вручную выбрать такие темы и поставить галку "В один файл". А чтобы автоматом программа находила?
     
  5. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Да, конечно можно
    Используйте "Ссылки недоступны для гостей", посмотрите видео с таким же названием, всё поймёте
     
  6. Evgeniyuser

    Evgeniyuser New Member Пользователи

    Регистрация:
    24 мар 2012
    Сообщения:
    16
    Спасибо. Приобрел вашу программку сегодня).
     
  7. scriptu

    scriptu New Member Пользователи

    Регистрация:
    25 мар 2012
    Сообщения:
    2
    Добрый день можно ли парсить новости задним числом в вордпресс? Если да то как?
     
  8. Evgeniyuser

    Evgeniyuser New Member Пользователи

    Регистрация:
    24 мар 2012
    Сообщения:
    16
    Извиняюсь за свою настойчивость, но поясните последний вопрос пожалуйста: вот я получил все ссылки данного раздела в виде Ссылки недоступны для гостей. Какие условия нужно задать, чтобы темы, состоящие из одной страницы распарсились отдельно, а темы, состоящие из нескольких страниц комментариев сшивались в одну страницу? Я уже понял, что темы с несколькими страницами комментариев также имеют вид http://forum.say7.info/topiсXXXXX-{num}.html. Где num=25. Помогите пожалуйста.
     
  9. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Всё можно. Тут посмотрите - Ссылки недоступны для гостей, затем откройте редактор в прогремме "Обработка и импорт в КМС" и всё получится, зададите настройки даты, как вам нужно
     
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    1. Темы, в которых много страниц, придётся добавлять отдельно
    Код:
    http://forum.say7.info/topiсXXXXX-25.html
    http://forum.say7.info/topiсXXXXX-50.html
    ........
    http://forum.say7.info/topiсXXXXX-2550.html
    
    Вот такое получится среди ссылок. Просто надо будет позаполнять нужные части.

    2. Другой вариант,- задать через сканер сайтов ссылку вида
    Код:
    http://forum.say7.info/topiсXXXXX-*.html
    как фильтр.

    Найдёте другой способ,- расскажите нам
     
  11. Zolders

    Zolders New Member Пользователи

    Регистрация:
    29 фев 2012
    Сообщения:
    11
    Добрый день! Не могу спарсить сайт Ссылки недоступны для гостей

    Это у меня ручки кривые или что то с сайтом?
     
  12. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Руки тут ни причём
    Надо вопрос правильно формулировать: что сделали, что получилось, что хотели получить.

    Посмотрите Ссылки недоступны для гостей. Должно помочь
     
    Последнее редактирование: 26 мар 2012
  13. Zolders

    Zolders New Member Пользователи

    Регистрация:
    29 фев 2012
    Сообщения:
    11
    Извените!

    Я хочу с сайта Ссылки недоступны для гостей спарсить товар: Наименование, Описание, Основные характеристики, цену, изображения.
    Товар расположен так: Ссылки недоступны для гостей/cod-79307-Kolyaska-dlya-dvoyni-Together.html#show-color-79307k12

    или вот так

    Ссылки недоступны для гостей/cod-79138-Progulochnaya-kolyaska-SimpliCity-Top.html#show-color-79138k12

    Запускаю Content Downloader, перехожу в сканер сайтов указую сайт и запускаю поиск ссылок... И ничего...
     
  14. Zolders

    Zolders New Member Пользователи

    Регистрация:
    29 фев 2012
    Сообщения:
    11
    Прошу прощения! С этим разобрался! Получил ссылки, но возникла новая проблема: Не могу задать границ парсинга, так как при открытии во встроеном браузере не таких элементов в html коде, тоесть нажимаю на наименование, а в коде такого и близко нет... На сколько я понял вроде бы сайт не поддерживает внутринний браузер.
     
  15. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ну посмотрите урок Ссылки недоступны для гостей. Там всё объяснено, что надо делать в вашем случае.

    1. Надо открыть "авторизация/куки" и передать куки
    2. Прежде чем искать код, надо задать параметр "Включить скрипты" внизу страницы "Задание границ парсинга", там, где кнопка "браузер открыть/закрыть"

    Если и сейчас не получится,- стучитесь в скэйп
     
  16. m899

    m899 New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    4
    Помогите спарсить размер и цвет Ссылки недоступны для гостей подгружается скриптом, границы парсинга скрипт не читают
     
  17. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    По китайски не очень зрозумию. Но... где там размер, где цвет, то есть, что именно вы парсить хотите, надо услышать ваше мнение?

    Я понял, что размер, вот тут - SMLXLXXL , а цвет чуть выше?

    Чтобы увидеть код надо проделать операции, описанные выше Ссылки недоступны для гостей, затем, перейдя во вкладку "Настройки границ парсинга", выбрать в "Опции браузера" опцию "Включить скрипты". Если размер и цвет не появятся, отключить эту опцию, подождать загрузку страницы, затем опять включить и ещё раз подождать подгрузку. Всё будет видно.
     
    Последнее редактирование: 26 мар 2012
  18. m899

    m899 New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    4
    там 4 цвета и 5 размеров (S M L XL XXL) это в карточке товара со скриптом

    в самом коде страницы цвет задается тегом ColorName:' (ColorName:'花灰) вот в коде получается 6 разных цветов и 5 размеров (Spec:'L)
     
  19. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    В этом я разобрался, но вот в том, ЧТО именно вам нужно парсить,- непонятно? Если проделаете вышесказанное, сами увидите весь код
     
  20. m899

    m899 New Member Пользователи

    Регистрация:
    17 мар 2012
    Сообщения:
    4
    мне нужны цвета и размеры которые в карточке товара есть в наличии (на примере этого товара в наличии только 4 цвета из 6)
     

Поделиться этой страницей