Как увеличить скорость парсинга?

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем Yetty, 26 ноя 2015.

  1. Yetty

    Yetty New Member Пользователи

    Регистрация:
    26 ноя 2015
    Сообщения:
    3
    Всем привет!
    Настроил программу на парсинг ссылок с прокси, все работает отлично. Большое спасибо разарботчикам :)
    Подскажите, возможно ли использовать парсинг ссылок в несколько потоков для увеличения скорости? Пока как решение вижу только установку программы на второй комп, но это неудобно, да и ноут может не выдержать такого натиска :)
    Может есть смысл арендовать несколько удаленных рабочих машин для этих дел (не уверен что это так назвывается) и запустить на них по программе?
     
  2. J!Life

    J!Life Модератор Команда форума Модератор

    Регистрация:
    6 дек 2013
    Сообщения:
    69
    Для того чтобы запускать парсинг на разных машинах нужны доп. лицензии Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    Скорость парсинга так же зависит от качества проксей, паблик прокси загажены и вечно в тормозах, поэтому могу посоветовать только поискать продажные (гугл в помощь) и взять на тест допустим с десяток.
    На счет количества потоков - из личного опыта могу сказать что лучше использовать не более 5 потоков с прокси. У кого-то больше/меньше, кому как повезло.
     
  3. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.641
    Город:
    Сочи
    Здравствуйте.

    Используйте для парсинга ссылок сканер сайтов (ctrl+7), он работает в многопоточном режиме.

    С уважением к вам, Сергей...
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.198
    Сбор ссылок во вкадке "ссылки" идет только в 1 поток
    Сбор ссылок через "сканер" возможно в 1-50 потоков
     
  5. Yetty

    Yetty New Member Пользователи

    Регистрация:
    26 ноя 2015
    Сообщения:
    3
    Подскажите, требуется ли еще что-нибудь настраивать при использовании сканера или достаточно добавить ссылки из списка парсинга?
    Сейчас у меня настроен обычный поиск ссылок в один поток и все работает (использую много настроек в фильтре ссылок). Когда включаю сканер и начинаю запускать ссылки, то какая-то работа идет, но ничего не находится и в логе парсинга никакой истории не сохраняется. Единственная цель использования сканера сайтов для меня состоит в многопоточности.
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.198
    Подкрепите пост ссылкой на сайт, на его основе разберем как настроить сканер
     
  7. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    55
    Город:
    Симферополь
    У меня также не получается добиться хорошей скорости парсинга на конкретном ресурсе. До этого парсил др сайты, там скорость достигала 10-12 док в сек., а текущий "донор" не получается спарсить выше 0,3-0,6 док в сек. Парсится только определенное поле с текстом, удаляются {br} и html теги. При предпросмотре страница загружается довольно быстро. В настройках http запросов используется INDY, паузы между запросами нет. пробовал выставлять потоки по-разному - от 1 до 50 - результат одинаковый. Может сможет кто что-то подсказать, что подкрутить в cd, чтобы быстрее пошло, а то уж больно много страниц нужно спарсить.
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.198
    Ограничение скорости персонально на ип, стоит попробовать через список прокси с разными useragents
     
  9. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    55
    Город:
    Симферополь
    Пробовал через список прокси - вообще не парсит. Замирает все - скорость парсинга 0.
     
  10. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    272
    Если, не ошибаюсь при предпросмотре - документ кешируется - визуально скорость парсинга быстра
    Может прокси в бане у конркетного сайта, который вы пытаетесь парсить, или прокси не поддерживает передачу POST запросом
     
  11. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    55
    Город:
    Симферополь
    безусловно вы правы, но я надеялся, что с настройками можно поиграться и получить нужный результат:)
     

Поделиться этой страницей