[APPENDDOCSOURCE] только для кэшированных?

Тема в разделе "Решение проблем с загрузкой WEB-страниц", создана пользователем Sssrgo, 9 сен 2019.

  1. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    Добрый день!
    Мы хотим провести парсинг товаров и характеристик с помощью <getmorecontent> и подгрузки данного контента с помощью [APPENDDOCSOURCE]. После кэширования и повторного запуска предпросмотра, всё достаточно хорошо. Характеристики вычисляются в контенте по ссылкам в определённом блоке после подгрузки контента.

    Однако, при первом запуске некэшированного документа парсинга по шаблону вывода не получаем данных по характеристикам с помощью <dynamicvalues> в выводе из подгруженного дополнительно кода. Может быть ссылка должна закэшироваться как-то и потом заново надо сделать парсинг по ней? Какой тогда макрос или параметр
    и где указать?

    В дополнительно подгружаемом коде содержатся характеристики, их парсим с помощью <dynamicvalues>. Попутно вопрос, как много сожрёт памяти этот макрос при парсинке около 50 тыс документов в среднем 10 характеристик на документ. Может кто знает, я новичок в IT
    Огромное спасибо.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей

    Значимых дополнительных ресурсов на это действие расходоваться не будет.
     
  3. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    Может быть, что-то не учли мы. Границы задали после предпросмотра. И парсится закэшированный документ предпросмотром хорошо. Но когда сбрасываем кэш и делаем новый предпросмотр, нужное не парсится. То же, когда мы запускаем сам парсинг, - нужное не грузится.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Должно грузиться.

    Приложите проект.
     
  5. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Функция работает корректно.

    2019-09-09_09-00-52.png
     
  7. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    Убрали галку. Без изменений. Мы не используем прокси
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Значит что-то упустили.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Банально: первая повторяющаяся граница парсинга (которая используется в макросе [APPENDDOCSOURCE]) не найдена в коде по первой ссылке из вашего проекта. Проверяйте настройки. Делайте выводы.
     
  10. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    В этом документе нет ссылок на допконтент, в котором вычисляются характеристики. Поэтому не находится ПГ1
    Наши характеристики находятся в подкгружаемом контенте, который рассположен по ссылкам в определённом блоке документа парсинга. Если там отсутсвуют ссылки - товар без значимых характеристик.

    Прикрепляю проект с одной ссылкой, на которой проводим тестирование. По документу этой ссылке идёт парсинг дополнительного контента после предпросмотра. Но при самом парсинге - нет
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Скорее всего из-за этого:
    Сайт забанил за частые запросы к нему.

    Либо зарядите хорошие прокси, либо парсите в 1 поток и подберите паузу для GETMORECONTENT.

    2019-09-09_09-37-01.png
     
    Последнее редактирование: 9 сен 2019
  12. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    Не могу сказать точно, что и нас забанил. Мы заходим туда и с браузера. И сейчас раз пять сделали тестирование, при котором парсинг идёт нормально после предпросмотра, и не идёт полностью без предпр-ра.

    Могу я попросить удалить файлы, которые я сюда прикреплял?
     
  13. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    Удалил сам.
     
    Root нравится это.
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Функция проверена неоднократно и используется многими людьми. Считаю, что проблемы, описанные вами тут вызваны либо не пониманием алгоритма работы (он не простой), либо банами сайта. Макрос еще раз проверил, проблем не обнаружил.
     
  15. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    Счастью нет предела! Оно работает! Мало того, что я своими силами решил задачу разработки алгоритма парсинга. Так ещё и случилось чудо - утром оно не работало, а теперь заработало! Вдвойне радостно.
     
  16. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    Теперь хотел бы спросить помощи на случай, если опять перестанет работать во время парсинга 50 тыс урл-ов. Можно ли какой-то функцией пометить документы, когда не спарсились именно дополнительные поля, но должны были?
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2019-09-09_22-24-21.png

    2019-09-09_22-25-05.png
     
  18. Sssrgo

    Sssrgo New Member Пользователи

    Регистрация:
    1 сен 2019
    Сообщения:
    11
    Город:
    Москва
    Большое спасибо!
     

Поделиться этой страницей