Проблемы со скоростью парсинга

Тема в разделе "Решение проблем с использованием программы", создана пользователем Smolam_Net, 5 сен 2017.

  1. Smolam_Net

    Smolam_Net New Member Пользователи

    Регистрация:
    5 апр 2017
    Сообщения:
    55
    Здравствуйте! Попробуйте попарсить сайт
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 5 постов.**
    У меня очень низкая скорость парсинга, посмотрите, пожалуйста, может с настройками что-то не так. Проект и ссылки даю:
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Сайт долго отвечает на запросы.

    Попробуйте сделать такие настройки:

    2017-09-06_12-39-17.png
     
  3. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    У меня так же вопрос в данную тему. Никак не могу подобрать настройки под сайт boohoo.com . Пока нужен просто сканер ссылок, но он работает крайне медленно (1 страница в несколько секунд). Так же удалось получить код страницы только через библиотеку WIIN. Может это так же влияет на скорость?

    Соответственно есть 2 вопроса:
    1. Можно ли как-то к этому сайту подключить библиотеку CIS? Пробовал разные комбинации сертификатов и присеты. Не помогло.
    2. Можно ли как-то поднять скорость сканирования и парсинга для этого сайта?

    Проект прилагаю.
     

    Вложения:

  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тут не в программе дело.

    На сайте, который вы парсите коды большинства WEB-страниц более 1 миллиона символов. Это на порядок выше, чем обычно! Отсюда и время обработки кода.

    Вы можете повырезать лишний код с помощью функции поиск-замены для исходного кода.

    2019-06-13_13-24-54.png
     
    Serheo нравится это.
  5. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Обчекрыжил я код сверху и снизу, но проблема осталась. Может как-то можно этот сайт оптимизировать? Просто первый раз с таким сталкиваюсь, чтоб без WBA и такой вечный тормоз. Может это библиотека WIN не тянет? Его можно как-то через CIS открыть?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Библиотека тут не причем. Проблема в огромном коде WEB-страниц на этом сайте.

    Например, длина кода этой WEB-страницы форума ~50 000, на том сайте большинство страниц содержат более миллиона символов.

    Сколько кода в процентах вы вырезали?
     
    Последнее редактирование: 14 июн 2019
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот вам "подарочек"
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    И систему помощи людям читать бы тоже не помешало, масса бы вопросов отпала.

    2019-06-14_11-11-50.png
     
  9. Serheo

    Serheo Well-Known Member Пользователи

    Регистрация:
    13 окт 2018
    Сообщения:
    251
    Город:
    Москва
    Вот была мысль карту поискать, но до реализации дело не дошло. Думал, что так победю. А систему помощи читаю регулярно. Вообще настольная книга. Просто не всегда совпадает с ходом мысли. CD же творческий инструмент. Спасибо за помощь!

    Карта конечно полезная вещь, но там еще 30К+ строк на парсинг с вложенными циклами. Пока рекорд 4 суток, но это c WBA.
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     

Поделиться этой страницей