Ozon.ru показывает только первые 35 страниц категории....

Тема в разделе "Решение различных задач по парсингу", создана пользователем geshanya971, 28 дек 2017.

  1. geshanya971

    geshanya971 New Member Пользователи

    Регистрация:
    20 дек 2017
    Сообщения:
    4
    Город:
    Харьков
    Здравствуйте!
    Нужно спарсить ссылки на товары с категории ozon.ru
    Ссылки недоступны для гостей
    Ссылки появляются при прокрутке страницы вниз, однако появляются только 35 страниц. А это 28*35=980 товаров, а никак не 3 071 766, как в примере.
    При пагинации та же ситуация:
    Ссылки недоступны для гостей
    Как спарсить остальное?
    Спасибо.
     
  2. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Здравствуйте!

    Попробовать собрать ссылки сканером. Или спарсить из поисковой выдачи.
     
  3. geshanya971

    geshanya971 New Member Пользователи

    Регистрация:
    20 дек 2017
    Сообщения:
    4
    Город:
    Харьков
    Сканер нашёл только ссылки с тех же первых 35 страниц.
    Как парсить из поисковой выдачи не совсем понял, мне ведь нужны ссылки только из определенной категории, как это сделать из поиска?
     
  4. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Например, запрос
    Код:
    site:ozon.ru/catalog
    выдаст ссылки на каталог. Под категорию запрос подобрать нужно.

    Код:
    site:ozon.ru/context/detail/id/ книга
    Ещё вариант - использовать разные поисковые запросы на самом озоне и собирать. Ссылка с запросом вязание в разделе Книги:
    Код:
    https://www.ozon.ru/?context=search&text=%e2%ff%e7%e0%ed%e8%e5&group=div_book
    Посмотреть сейчас не могу, но, вроде такую кодировку CD поддерживает.

    PS И почитайте вот эту тему ;) http://forum.sbfactory.ru/threads/ne-sobirajutsja-ssylki-c-ozon-ru.4929/
     
    Последнее редактирование: 29 дек 2017
  5. geshanya971

    geshanya971 New Member Пользователи

    Регистрация:
    20 дек 2017
    Сообщения:
    4
    Город:
    Харьков
    site:eek:zon.ru/context/best_books/
    (это нужная категория)
    гугл выдает ровно одну ссылку)))
    опять же натыкаюсь на ограничение в 35 страниц, хотелось бы все сделать одним проектом, а не 30-ю, как-то это всё же попроще)))))
    с неё и начинал, с этой темы прошло 8 мес, и...
    вариант 1: ozon.ru с тех пор наверное и ввел это ограничение на 35 страниц, которое сейчас мне мешает жить
    вариант 2: я тупой и не могу повторить то, что кто-то уже сделал:(
     
  6. geshanya971

    geshanya971 New Member Пользователи

    Регистрация:
    20 дек 2017
    Сообщения:
    4
    Город:
    Харьков
    Понемногу стало получаться, пока парсится не все, но хотя бы ограничение в 35 страниц удалось обойти.
    Все оказалось просто, руками ссылки на страницы 36, 37, 38... не открываются, а вот Content Downloader их успешно открывает, и, соответственно парсит.
    Может кому поможет.
     
    Root нравится это.
  7. Vladyslav

    Vladyslav Member Пользователи

    Регистрация:
    20 фев 2015
    Сообщения:
    58
    Я так понимаю, что это уже не актуально? С 36 странице парсит одни и те же ссылки. Ковырялся в настройках парсера, ничего не изменяется: либо парсит одни и те же, либо вообще не собирает.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Похоже на то, что сам сайт выдает только 36 страниц. Это уже ограничения сайта.
     

Поделиться этой страницей