Парсинг с Ozon.ru

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем MaiLady, 4 май 2019.

  1. MaiLady

    MaiLady New Member Пользователи

    Регистрация:
    3 ноя 2018
    Сообщения:
    5
    Город:
    Иваново
    При попытке парсинга с сайта ozon.ru программа пишет Additional security check is required content downloader, контент не отображается. Это как-то можно решить?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Там стоят проверки на автоматические запросы.

    Если через браузер парсить, все нормально должно быть.

    2019-05-04_09-19-55.png
     
  3. MaiLady

    MaiLady New Member Пользователи

    Регистрация:
    3 ноя 2018
    Сообщения:
    5
    Город:
    Иваново
    Заработало, спасибо
     
    Root нравится это.
  4. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    Аналогичная проблема. Перед началом парсинга всегда нужно пройти security check во вкладке "Авторизация (ctrl+k)" в связи с чем не могу использовать планировщик.

    Включаю "контент" - security не запрашивает, но парсит не то, что требуется - парсит один продукт с одной страницы выдачи (их всегда больше одного), к тому же парсит всего несколько границ парсинга (их больше в проекте). Пример парсинга с включенным "контент":

    '/category/konfety-30695/?page=2', '', '', '', '54','62', ', offers:2'
    '/category/konfety-30695/?page=2', '', '', '', '465', '321', ''

    Прошу подсказать как решить.
     
  5. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    извиняюсь (с одной страницы - по одному товару):
    '/category/konfety-30695/?page=2', '', '', '', '54','62', ', offers:2'
    '/category/konfety-30695/?page=3', '', '', '', '465', '321',
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Потому, что при использовании движка браузера для построения WEB-страницы, код ее будет видоизменяться. Соответственно, нужно будет перезадать границы парсинга под новый вид кода WEB-страницы.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    PS: Также попробовал использовать библиотеку WIN (включается в окне ctrl+h). Загрузил для теста пару страниц - проблем не выявил.
     
  8. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    Поправил, этот вопрос решен.

    Но при использовании опции "Контент" возникает большая проблема - программа зацикливается. Т. е. с каждым последующим web документом, программа загружает все предыдущие. Например: на каждой странице (web документе) содержится по 28 товаров, после парсинга каждой последующей должно быть:

    /?page=1 - 28 товаров
    /?page=2 - 56 товаров
    /?page=3 - 84 товаров

    В реальности получается прогрессивное нарастание:

    /?page=1 - 28 товаров
    /?page=2 - 82 товаров
    /?page=3- 168 товаров

    Задача - поставить проект на планировщик. Прошу подсказать возможно есть другие решения изначально поставленного вопроса "Additional security check"?
     
    Последнее редактирование: 15 июн 2019
  9. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    Решение (при необходимости парсить с использованием опции "Контент"):

    При генерации ссылок таким образом на каждой странице выдает по 280 товаров:

    /?page=10
    /?page=20
    /?page=30

    * Недостатки (в сравнении парсинга без "Контент"):
    - собирает много дубликатов (~20% от общего количества), может озон так выдает (не анализировал);
    - собирает меньше товаров ( ~20% от общего количества), или озон их не выдает (не анализировал).
    - при экспорте данных в MYSQL возникают проблемы при использовании "DUPIGNORE" , подробнее тут: http://forum.sbfactory.ru/threads/v-povtorjajuschixsja-granicax-pojavljajutрsja-lishnie-razdeliteli-ciklov.7585
     
    Последнее редактирование: 16 июн 2019
  10. Tomash

    Tomash New Member Пользователи

    Регистрация:
    29 июл 2019
    Сообщения:
    8
    Город:
    Гомель
    При попытке парсинга с ozon.ru постоянно выдаёт капчу, какое решение проблемы?
     
  11. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    312
    юзать прокси
     
    Root нравится это.
  12. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Как обычно - в момент показа капчи - смена прокси + удаление кэша браузера + получение куки и запись их, добавление закапченного юрл в конец списка парсинга ADDURL
     
    kagorec и Root нравится это.
  13. Tomash

    Tomash New Member Пользователи

    Регистрация:
    29 июл 2019
    Сообщения:
    8
    Город:
    Гомель
    Может есть инструкция?
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  15. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    Инструкции нет, это творческий процесс и нужно хорошо понять подход к алгоритму, можете взять обучение у KAGOREC , он точно умеет это делать правильно.
     
  16. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    Получение куки и запись их:

    [DOITATFIRSTDOC][WBAPP(cookies.wbapp|Ссылки недоступны для гостей

    * в файле cookies.wbapp - [GETCOOKIES_EX]

    Безымянный рисунок.png


    Варианты решения: парсить через "контент" (лучше через WBAppCEF) или использовать WAITFORME (при парсинге НЕ через "контент", у меня практически всегда капчу запрашивает):

    [CHECKENTRY(_Incapsula_Resource)][DOCSOURCE][THENTEXT][WAITFORME][RELOADDOCUMENT][ELSETEXT]▒ если капча, тормозим процесс, вводим и передаем куки через "ключик" программы
    [CHECKENTRY([ANYTEXT])]<CD_GRAN_10!>[THENTEXT]▒
    ок:<CD_DOCURL!>▒ сохраняем инфу в файл отчета
    [ELSETEXT][RELOADDOCUMENT]▒перегружаем если CD_GRAN_10 не найдена
    [/CHECKENTRY]▒
    [/CHECKENTRY]▒
     
    Последнее редактирование: 30 июл 2019
    kagorec нравится это.
  17. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Интересно как себя ведет Incapsula при длительном парсинге источника, затормаживает трафик через 10.000 страниц (как это делает cloudflare)?
    Cloudflare CDN, Incapsula CDN - Хорошая мера безопасности против парсеров))
     
  18. kofe

    kofe Member Пользователи

    Регистрация:
    22 май 2019
    Сообщения:
    64
    Не знаю, я данные из их поисковой выдачи собираю - всего около 100 страниц. Ввожу один раз (с начала), и больше не запрашивает.

    А озоновскую Incapsula можно через антигейт разрешить или тоже не справиться парсер?
     
    Последнее редактирование: 31 июл 2019
  19. Tomash

    Tomash New Member Пользователи

    Регистрация:
    29 июл 2019
    Сообщения:
    8
    Город:
    Гомель
    Всем спасибо за информацию, вроде как разобрался. Но теперь стоит такой вопрос, при парсинге картинок с ozon, если их несколько, то первое изображение подгружается в большом формате, а все остальные только в малом.[​IMG]
     

    Вложения:

    • image.png
      image.png
      Размер файла:
      780,8 КБ
      Просмотров:
      7
    • image (1).png
      image (1).png
      Размер файла:
      780,9 КБ
      Просмотров:
      6
  20. Djahat

    Djahat Well-Known Member Пользователи

    Регистрация:
    14 янв 2013
    Сообщения:
    543
    Город:
    Мордор
    прилаживай проект парсинга - доделаем
     
    Root нравится это.

Поделиться этой страницей