Не парсится Santehika online

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем Artemz154, 15 мар 2021.

Метки:
  1. Artemz154

    Artemz154 New Member Пользователи

    Регистрация:
    7 мар 2021
    Сообщения:
    6
    Город:
    Новосибирск
    Не загружается страница, тоесть заугружается страница в два этапа(как я понял). Загужается сначала скрипт, а после Get запросом скрипт отправляет запрос и ждет, то что он выдаст. В Системе Помощи не нашел.

    Ссылки недоступны для гостей
     
    Последнее редактирование: 15 мар 2021
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    С парсингом этого сайта есть проблемы.

    Его удается парсить только через WBAppCEF, только с определенным user agent и только на Windows 7.

    Код:
    Mozilla/5.0 (iPhone; U; CPU iPhone OS 3_0 like Mac OS X; en-us) AppleWebKit/528.18 (KHTML, like Gecko) Version/4.0


    Проект приложил.

    2021-03-15_17-07-40.png

    2021-03-15_17-08-09.png

    2021-03-15_17-08-45.png
     

    Вложения:

    Artemz154 нравится это.
  3. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    С использованием прокси wbapp не открывает страницу Ссылки недоступны для гостей
    при отключеном прокси работает отлично
    только c CEF
    с IE работает с проксями
     
  4. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    Ваш проект так же с проксями не работает.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Добавил в справку поддерживаемые типы прокси для WBAppCEF (ввиду особенностей Chromium).

    Ссылки недоступны для гостей
     
  6. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    Использую HTTP прокси, и в этом проекта они не работают.
    Другие страницы загружаются, кроме сантехники
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Скорее всего данный сайт через прокси не работает.
     
  8. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    При использование IE работает при использовании хрома не работает,так что проблема не в сайте.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Значит проблема в Chromium.

    Парсите без прокси.

    Протестировал в 2 потока на 100 товарах. Проблем не выявил.
     
  10. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    Подскажите как поступить в такой ситуации
    Нужна фильтрация документа.
    Задача
    При отсутствии границы 5 отправлять документ на перепарсинг
    Но
    При получении в странице фразы "Такой страницы не существует" отфильтровывать документ.

    Я указал границу 5 как обязательная
    В списке фильтрации по ключевым словам указал "Такой страницы не существует"
    НО
    если граница 5 не найдена то документ отправляется на перепарсинг и событие по фильтрации по ключевым словам не наструпает.
    Как быть?
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вместо опции "обязательна" используйте макрос
    Код:
    [CHECKENTRY([ANYTEXT])]<CD_GRAN_5!>[ELSETEXT][RELOADDOCUMENT][/CHECKENTRY]
    Если перепарсинг требуется из-за того, что что-то не успело догрузиться, следует переделать скрипт ожидания готовности загрузки документа в WBAppCEF (привязаться для проверки к другому элементу WEB страницы).
     
  12. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    Для фильтрации же используется FILTERDOCUMENT
    почему нужен RELOADDOCUMENT ?
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Потому, что вы попросили перепарсить документ, если граница 5 пустая.
     
  14. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    Нет мне нужно в самом начале понимать что документ не существует, товар снят и стоит заглушка.
    Но если товар существует, и не отрисовалась страница в полном объеме и мы не получили границу 5 то документ нужно перепарсить заново.
    Т.е. важен порядок, в начале отфильтровать документ а потом проверить корректно ли код подгрузился или нет и если нет то перепарсить.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я вас понял изначально предельно ясно и дал решение.

    Вместо того, чтобы его попробовать, вы начинаете мне доказывать, что оно не подходит. Можете продолжать доказывать это дальше.
     
  16. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    Вы меня не поняли.
    Вы предлагаете сделать
    [CHECKENTRY
    ([какого то текста ])]
    в гарнице <CD_GRAN_5!>[ELSETEXT]
    иначе выполнить перезагрузку документа [RELOADDOCUMENT][/CHECKENTRY]

    Но мне это не нужно.
    Граница 5 содержит характеристики товара, и они всегда разные. Если документ криво отрисовался на js то часть этого кода не подгружена. Страница не отрисовалась полностью.
    Но есть страница которые содержат фразу "Такой страницы не существует", страницы с которых снят товар и там нечего парсить.
    Нужно в самом начале проверить, если эта страница "Битая, т.е. не существует", то пропускаем этот документ.
    Но если страница НОРМАЛЬНАЯ но полностью не отрисована то сделать ее перепарсинг.
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вы просто вставьте конструкцию, которую я вам предоставил (без всякого изменения!).

    Я просто забью на вступание в полемику с вами и все дела.
     
  18. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
    В программе фильтрация документа через опции программы, работает после того как проверены наличие всех обязательных граница.
    А нужно сделать до этого, в самом начале, что бы понять есть ли смысл в дальнейшем искать границы или нет.
    Если страница не отрисована то на не нужно искать наличие границ.
     
  19. dima911

    dima911 New Member Пользователи

    Регистрация:
    5 апр 2018
    Сообщения:
    89
    Город:
    Волгоград
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул

Поделиться этой страницей