Парсинг с Ozon.ru

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем MaiLady, 4 май 2019.

  1. MaiLady

    MaiLady New Member Пользователи

    Регистрация:
    3 ноя 2018
    Сообщения:
    5
    Город:
    Иваново
    При попытке парсинга с сайта ozon.ru программа пишет Additional security check is required content downloader, контент не отображается. Это как-то можно решить?
     
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    10.776
    Город:
    Сочи
    Там стоят проверки на автоматические запросы.

    Если через браузер парсить, все нормально должно быть.

    2019-05-04_09-19-55.png
     
  3. MaiLady

    MaiLady New Member Пользователи

    Регистрация:
    3 ноя 2018
    Сообщения:
    5
    Город:
    Иваново
    Заработало, спасибо
     
    Root нравится это.
  4. kofe

    kofe New Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    28
    Аналогичная проблема. Перед началом парсинга всегда нужно пройти security check во вкладке "Авторизация (ctrl+k)" в связи с чем не могу использовать планировщик.

    Включаю "контент" - security не запрашивает, но парсит не то, что требуется - парсит один продукт с одной страницы выдачи (их всегда больше одного), к тому же парсит всего несколько границ парсинга (их больше в проекте). Пример парсинга с включенным "контент":

    '/category/konfety-30695/?page=2', '', '', '', '54','62', ', offers:2'
    '/category/konfety-30695/?page=2', '', '', '', '465', '321', ''

    Прошу подсказать как решить.
     
  5. kofe

    kofe New Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    28
    извиняюсь (с одной страницы - по одному товару):
    '/category/konfety-30695/?page=2', '', '', '', '54','62', ', offers:2'
    '/category/konfety-30695/?page=3', '', '', '', '465', '321',
     
  6. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    10.776
    Город:
    Сочи
    Потому, что при использовании движка браузера для построения WEB-страницы, код ее будет видоизменяться. Соответственно, нужно будет перезадать границы парсинга под новый вид кода WEB-страницы.
     
  7. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    10.776
    Город:
    Сочи
    PS: Также попробовал использовать библиотеку WIN (включается в окне ctrl+h). Загрузил для теста пару страниц - проблем не выявил.
     
  8. kofe

    kofe New Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    28
    Поправил, этот вопрос решен.

    Но при использовании опции "Контент" возникает большая проблема - программа зацикливается. Т. е. с каждым последующим web документом, программа загружает все предыдущие. Например: на каждой странице (web документе) содержится по 28 товаров, после парсинга каждой последующей должно быть:

    /?page=1 - 28 товаров
    /?page=2 - 56 товаров
    /?page=3 - 84 товаров

    В реальности получается прогрессивное нарастание:

    /?page=1 - 28 товаров
    /?page=2 - 82 товаров
    /?page=3- 168 товаров

    Задача - поставить проект на планировщик. Прошу подсказать возможно есть другие решения изначально поставленного вопроса "Additional security check"?
     
    Последнее редактирование: 15 июн 2019 в 16:29
  9. kofe

    kofe New Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    28
    Решение (при необходимости парсить с использованием опции "Контент"):

    При генерации ссылок таким образом на каждой странице выдает по 280 товаров:

    /?page=10
    /?page=20
    /?page=30

    * Недостатки (в сравнении парсинга без "Контент"):
    - собирает много дубликатов (~20% от общего количества), может озон так выдает (не анализировал);
    - собирает меньше товаров ( ~20% от общего количества), или озон их не выдает (не анализировал).
    - при экспорте данных в MYSQL возникают проблемы при использовании "DUPIGNORE" , подробнее тут: http://forum.sbfactory.ru/threads/v-povtorjajuschixsja-granicax-pojavljajutрsja-lishnie-razdeliteli-ciklov.7585
     
    Последнее редактирование: 16 июн 2019 в 03:49

Поделиться этой страницей