Настройка Content Downloader на парсинг магазинов

Тема в разделе "Решение различных задач по парсингу", создана пользователем bulshop, 28 мар 2012.

  1. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Такой вариант мне не подходит,Вы можете мне подсказать,какие действия мне нужно выполнить,чтобы получить ссылки на товар если:

    1)Главная страница сайта -ebay.com;

    2)Страница с нужными мне категориями Ссылки недоступны для гостей

    3)Страница с нужным мне товаром Ссылки недоступны для гостей

    4)Страница товара имеет вид Ссылки недоступны для гостей

    Единственное,что у меня получается,это получение ссылок на категории,фильтры не ставил,надеялся,что среди всех ссылок будут и нужные мне и я отсеял бы их в ручную,но не вышло.
    Уверен,что чего-то не учел,поэтому и не выходит,помогите разобраться пожалуйста.
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Покажу как настроить получение ссылок в данном магазине, но, надо сказать, что он ничем не отличается от получения ссылок на любом другом, где есть диапазон ссылок. Показыва всё по порядку, чтобы стало понятнее.

    1. Заходим на страницу всех категорий нужного нам раздела и видим такую картинку

    [​IMG]

    Здесь кружочком выделено общее количесство товаров в данной категории
    2. Если мы зайдём на подкатегории, увидим то же самое поле, только цифра будет другая.

    [​IMG]

    Эти цифры показывают общее количество товаров,

    3. а нам нужно получить общее количество страниц с товарами. Как это сделать показывают следующие скриншоты
     
    Последнее редактирование: 28 мар 2012
  3. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Получение значений диапазона ссылок магазина

    Продолжаем получение ссылок категории по диапазону
    [​IMG]
    Смотрим по порядку в нужные места. На картинке пронумерованы шаги, которые надо проделать, чтобы взять нужную ссылку

    1. Подводим мышку к навигационной строке и видим
    2. Внизу появилось значение ссылки
    3. Нам надо поводить мышкой на разные цифры навигации, и посмотреть, на какое число, и в каком месте меняется в ссылке цифра диапазона
    4. Конечно число указано в кружочке. Оно обозначает последнюю ссылку диапазона.
    - надо учесть, что на некоторых сайтах эта цифра не всегда показана, тогда придётся её найти опытным путём или методом научного тыка.

    Итак, поняв, что нам нужно, и какую ссылку с какой цифрой надо получить для полного списка, мы можем
    1. задать значение последней страницы и скопировать ссылку
    2. но можем скопировать одну из ссылок, перейти в программу, и задать диапазон вручную, то есть проставить значение 236 (в этом примере) запомнив цифру.
    Это всё показано далее
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    На странице подкатегории, всё точно также, только цифры другие
    [​IMG]
    Это хорошо видно на картинке, повторяться не буду

    Итак, получили ссылку, переходим в программу Content Downloader, вставляем полученную ссылку в поле ссылки
    [​IMG]
    1. Выделяем цифру, которая является диапазоном ссылок и нажимаем F2, чтобы проставить вместо цифры макрос {num}. Именно он отвечает за получение всего диавпазона ссылок
    2. Во второе поле ставим значение полученной на предыдущем шаге цифры. В случае с категорий это была цифра 236, в подкатегории цифра 24
    3. В третьем поле проставляется шаг диапазона, то есть значение, которое задаёт на какую цифру будет меняться каждая ссылка
     
    rusalex нравится это.
  5. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    На данном скриншоте показывается подробнее, как настроить диапазон ссылок, и как получить сами ссылки

    [​IMG]

    1. Проставляем макрос
    2. В первом поле значение цифры, для первой ссылки диапазона
    3. Значение полного диапазона ссылок
    4. Шаг, цифры, на которую увеличивается значение каждой ссылки диапазона
    5. Настроив все цифры нажимаем на "Добавить ссылки", в выпадающем меню выбираем "используя диапазон"
    6. Получаем список всех ссылок диапазона категории

    [​IMG]

    На скриншоте это видно
     
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Далее, нужно перейти во вкладку "Ссылки" и задать параметры получения ссылок. Выделено красным

    Ссылки недоступны для гостей

    Надо сказать, что ссылки можно получать разными способами, но, в нашем случае, этот путь будет наиболее удобным. В мелочи не будем вдаваться, перейдём сразу к настройкам. Чтобы задать границы парсинга ссылок, надо нажать на кнопку "...". Далее, надо выбрать тот код страницы, в рамках которого находятся ссылки на товары.

    В нашем случае, лучше всего выделить всю таблицу, в которой находятся товары

    Начало границы парсинга будет вот это
    Код:
    <table cellpadding="0" cellspacing="10" class="gallery">
    Конец парсинга. Чтобы мы получили все ссылки, со всех страниц, лучше всего подстраховаться и задать вторую границу чуть шире того, что нам нужно
    Код:
    </tbody></table>
    Задали, нажали на "Готово"

    Теперь жмём двойным кликом на любую ссылку, смотрим какие ссылки нам выдаются.
    - Видим, что тут есть лишние ссылки, то есть ссылки навигации
    Код:
    http://stores.ebay.com/cn-batteries/_i.html?rt=nc&_sid=558364766&_trksid=p4634.c0.m14.l1581&_pgn=8
    Чтобы такие ссылки исключить сразу из нашего парсинга, зададим фильтр, по которому они будут отсекаться. Заходим в "Фильтры", и в поле "не загружать ссылки, содержащие" задаём вот этот параметр
    _pgn
    Этого будет достаточно для того, чтобы получить почти исключительно
    только ссылки на товары. Несколько ссылок, которые попадутся на категори, легко потом будет удалить.

    Итак, настроив фильтр, нажимаем F5 и ждём получения ссылок. Не забываем о том, чтобы проставить прокси, либо, паузу между запросами, чтобы не получить бан с сайта-донора.
     
  7. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Спасибо огромное,на столько подробно получить ответ я не ожидал,удачи Вам во всех начинаниях!=)
     
  8. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Пользуйтесь на здоровье. Наверное, пригодится ещё кому-то.
     
  9. Cakke

    Cakke New Member Пользователи

    Регистрация:
    28 мар 2013
    Сообщения:
    1
    Не могу выставить границы парсинга, ebay ругается на встроенный браузер и делает неактивным его, что делать?
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  10. Katerina510

    Katerina510 New Member Пользователи

    Регистрация:
    17 июл 2014
    Сообщения:
    1
    Мы можете помочь тоже самое с сайтом
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    не могу задать границы парсинга, помогите пожалуйста если не сложно
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Опишите, пожалуйста, подробно проблему. Пока непонятно, с чем вам помочь =)
    Спасибо!
     
  12. pompey

    pompey New Member Пользователи

    Регистрация:
    27 янв 2015
    Сообщения:
    20
    http://stores.ebay.com - вместо html кода вижу убожество

    Здравствуйте! У меня тоже проблема с парсингом eBay.

    Обычные страницы на eBay могу спарсить без проблем. Но вот страницы магазинов на eBay видимо как то защищены.

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Просто другим путем спарсить категории из левого меню, кроме как из магазина не получится.

    Помогите решить задачу!

    Заранее благодарю...
     
  13. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Привектствую!
    Сверху слева вместо AUTO поставьте utf-8!
     
  14. pompey

    pompey New Member Пользователи

    Регистрация:
    27 янв 2015
    Сообщения:
    20
    Снова здравствуйте!

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    я перепробовал все кодировки... пробовал всевозможные варианты... включал и отключал скрипты... пробовал менять параметры HTTP запросов. все равно не работает.
     
  15. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Значит нужно использовать DOM
    Ctrl+H галочка на контент, потом в настройку границ.
    Парсить не более в 2-3 потока
     

Поделиться этой страницей