Парсинг китайских интернет магазинов (dealextrem.com,tinydeal.com)

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем bulshop, 1 мар 2012.

  1. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Здравствуйте,мучаюсь 2й день ни как не могу понять как просканировать на ссылки с товаром китайские магазины указанные в названии темы , вот ссылка главной страницы сайта :
    Ссылки недоступны для гостей
    вот ссылка категории :
    Ссылки недоступны для гостей
    а вот ссылка товара в категории:
    Ссылки недоступны для гостей
    Помогите просканировать ссылки магазина если не целиком то хотя бы по категории.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Да я смотрю по поводу сбора ссылок это больная тема всех новеньких клиентов.
    В общем сделал видео инструкцию по сбору ссылок на товары :)

    Как собрать ссылки на товары магазина
    Ссылки недоступны для гостей
     
    Последнее редактирование: 13 апр 2012
  3. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Вы тогда на примере Ссылки недоступны для гостей пожалуйста снимите видео!
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Вот проект, ссылки забираешь таким вот образом.

    Вот проект, для собирания ссылок.

    Для другой категории тоже сгодится. Все категории не проверял, только несколько, но думаю, для большинства подойдёт.
     

    Вложения:

  5. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Спасибо конечно,но это я как понял только ссылки находит на категории,а как из них уже страницы с описанием товара вытягивать ?
     
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Что просил, то и получил.
     
  7. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Простите меня за невнимательность,но все же объясните пожалуйста как получить ссылки на товар,я не могу понять за что там ухватиться
    Ссылки недоступны для гостей вот ссылка категории:
    а вот ссылки на сам товар,помогите настроить фильт ссылок так ,чтобы находило такого рода ссылки.
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  8. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Посмотри чуть выше, я приложил во вложении настроенный проект. Настроен на парсинг именно ссылок с этого сайта. Контент надо настраивать отдельно, но там, насколько я понял, только картинки

    1. В разделе "Ссылки", надо задать диапазон ссылок нужной категорий
    2. Получить ссылки страниц конкретной категории
    3. Получить ссылки самих товаров
     
    Последнее редактирование: 2 мар 2012
  9. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Допустим с категориями разобрался,а как например с этой страницы ссылки на товар вытянуть как фильтр настроить ? Ссылки недоступны для гостей
    П.С. вы извините если что,просто я ни разу не сталкивался с таким типом работы,для меня все эти "srgasrio3rfsdfg434" не читаемы =)
     
  10. bulshop

    bulshop New Member Пользователи

    Регистрация:
    1 мар 2012
    Сообщения:
    11
    Извините,но не могли бы вы сделать проект по парсингу товара из tinydeal.com/ru ? или снять обучающее видео где пошагово все объясните ?
     
  11. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Я же тебе несколько сообщений тому назад, дал готовый проект

    Я же тебе несколько сообщений тому назад, дал готовый проект
    Готовый проект
    Создавать видео нет смысла, всё уже давно создано разработчиком программы.
    Если нужен полный проект,- пиши в личку.
     
  12. nautilus

    nautilus New Member Пользователи

    Регистрация:
    12 мар 2012
    Сообщения:
    6
    Ребята, а кто нибудь может поделиться собранными ссылками с tinydeal ? Отблагодарю
    mobile_trade@mail.ru
     
  13. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    что вы так заинтересовались тинидиал.))
    Как собирать ссылки товарв из главных и т.д. категорий tinydeal
    пример на видео Ссылки недоступны для гостей
     
    Последнее редактирование: 12 мар 2012
  14. nautilus

    nautilus New Member Пользователи

    Регистрация:
    12 мар 2012
    Сообщения:
    6
    Дело в том , что при любом сборе ссылок, и по категориям и так собирается много дублей , например :

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  15. nautilus

    nautilus New Member Пользователи

    Регистрация:
    12 мар 2012
    Сообщения:
    6
    По сути ссылка ведет на один товар , но ссылки разные
     
  16. nautilus

    nautilus New Member Пользователи

    Регистрация:
    12 мар 2012
    Сообщения:
    6
    Берем категорию где 2600 ссылок , а в итоге получаем 3600
     
  17. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Надо на китайцев жалобу накатать

    Прежде всего, nautilus, не надо создавать лишние сообщения, можно в одном всё изложить, либо отредактировать, добавить новые мысли.

    Далее
    Надо на китайцев жалобу накатать :D в департамент парсинга при ООН. И вообще, потребовать от них прайс-лист, в CSV-формате, или XML всего сайта.

    А если серьёзно, то со многими сайтами приходится иногда долго возиться, чтобы получить нужно. В данном случае, надо было внимательнее смотреть видео, там показано, где, как и откуда получить ссылки. Те ссылки что здесь представлены, одинаковые, потому что не там собирались. Надо зайти в нужную категорию, и уже там смотреть навигацию, из которой взять ссылки. Например:

    _http://www.tinydeal.com/ru/iphone-ipod-ipad-c-85.html
    Это - iPhone, iPod и iPad
    Здесь мы видим что нам предоставлено 59 страниц навигации
    _http://www.tinydeal.com/ru/iphone-ipod-ipad-c-85.html?page=59&sort=20a&disp_order=18&language=ru
    Выделено красным.

    1. Нам, фактически нужно взять эту ссылку (на видео это показано и хорошо видно), из неё извлечь циру 59 (это количество страниц), и проставить вместо цифр, с помощью F2 - {num}. Сами цифры прописать в окошко диапазона ссылок (второе, на видео тоже видно). Затем нажать на "ДЖобавить ссылки", выбрать "Используя диапазон". И будут получены ныжные ссылки НО, на страницы с перечнем товаров.

    2. Чтобы получить ссылки на сами товары, надо перейти во вкладку "Ссылки", и настроив "Фильтр ссылок" получить уже ссылки на сами товары. Как это делается, на видео тоже показано, хотя и не все варианты.

    Чтобы правильно настроить фильтр, надо внимательно изучить ссылки на товары, и найти закономерность, которая в товарах присутствует, а на страницах каталога их нет. На этом сайте закономерности такие:
    - ссылки на товар двухуровневые, значит, выставляем этот параметр
    - Ссылки на товар должны оканчиваться на .html

    Опыт показывает, что с данным сайтом такие закономерности найти сложно, и тех, что мы нашли, недостаточно, для того, чтобы получить чистые ссылки. Значит, далее ищем то, что не должно содержаться в ссылках, и проставляем во второе окошко.
    - например, ? - вопросительный знак. Его, не бывает в ссылках на товар
    - также знак = его тоже не бывает

    Ну, и так далее. Иногда, достаточно найти одну-две закономерности, чтобы можно было спарсить ссылки в чистом виде, иногда приходиться ещё искать. Но, как говорят, кто ищет тот всегда найдёт (иногда, правда, на свою голову). :p
     
  18. nautilus

    nautilus New Member Пользователи

    Регистрация:
    12 мар 2012
    Сообщения:
    6
    Беру ссылки с категории , так как показано на видео
    Ни одной ссылки с чистым .html нет, все с хвостами.

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Если в фильтре поставлю = или ? , то не найду ни одной ссылки.

    Выход нашел только один , отрубать хвосты и удалять дубли , но это не решение проблемы, т.к. сколько времени потребуется на все эти манипуляции с 500 000 ссылок.
     
  19. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Надо Задать сначала "сканер сайтов" без фильтров, посмотреть какие вообще ссылки выдаются на сайте, а потом искать закономерности

    Это был просто пример, а не решение

    Это тоже было показано на видео

    К сожалению, с некоторыми сайтами приходится долго возиться. тут выход один,- либо потеешь, либо ищешь другой сайт. На этом, в самом деле очень много товаров.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Выход:
    В фильтрах ссылок есть функция удаления лишних параметров (из-за которых создаются дубли): Ссылки недоступны для гостей
    Времени мало, скажу навскидку: удалить параметр zenid
     

Поделиться этой страницей