Как увеличить скорость парсинга?

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем Yetty, 26 ноя 2015.

  1. Yetty

    Yetty New Member Пользователи

    Регистрация:
    26 ноя 2015
    Сообщения:
    3
    Всем привет!
    Настроил программу на парсинг ссылок с прокси, все работает отлично. Большое спасибо разарботчикам :)
    Подскажите, возможно ли использовать парсинг ссылок в несколько потоков для увеличения скорости? Пока как решение вижу только установку программы на второй комп, но это неудобно, да и ноут может не выдержать такого натиска :)
    Может есть смысл арендовать несколько удаленных рабочих машин для этих дел (не уверен что это так назвывается) и запустить на них по программе?
     
  2. J!Life

    J!Life Модератор Команда форума Модератор

    Регистрация:
    6 дек 2013
    Сообщения:
    83
    Для того чтобы запускать парсинг на разных машинах нужны доп. лицензии Ссылки недоступны для гостей
    Скорость парсинга так же зависит от качества проксей, паблик прокси загажены и вечно в тормозах, поэтому могу посоветовать только поискать продажные (гугл в помощь) и взять на тест допустим с десяток.
    На счет количества потоков - из личного опыта могу сказать что лучше использовать не более 5 потоков с прокси. У кого-то больше/меньше, кому как повезло.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Используйте для парсинга ссылок сканер сайтов (ctrl+7), он работает в многопоточном режиме.

    С уважением к вам, Сергей...
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Сбор ссылок во вкадке "ссылки" идет только в 1 поток
    Сбор ссылок через "сканер" возможно в 1-50 потоков
     
  5. Yetty

    Yetty New Member Пользователи

    Регистрация:
    26 ноя 2015
    Сообщения:
    3
    Подскажите, требуется ли еще что-нибудь настраивать при использовании сканера или достаточно добавить ссылки из списка парсинга?
    Сейчас у меня настроен обычный поиск ссылок в один поток и все работает (использую много настроек в фильтре ссылок). Когда включаю сканер и начинаю запускать ссылки, то какая-то работа идет, но ничего не находится и в логе парсинга никакой истории не сохраняется. Единственная цель использования сканера сайтов для меня состоит в многопоточности.
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Подкрепите пост ссылкой на сайт, на его основе разберем как настроить сканер
     
  7. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    У меня также не получается добиться хорошей скорости парсинга на конкретном ресурсе. До этого парсил др сайты, там скорость достигала 10-12 док в сек., а текущий "донор" не получается спарсить выше 0,3-0,6 док в сек. Парсится только определенное поле с текстом, удаляются {br} и html теги. При предпросмотре страница загружается довольно быстро. В настройках http запросов используется INDY, паузы между запросами нет. пробовал выставлять потоки по-разному - от 1 до 50 - результат одинаковый. Может сможет кто что-то подсказать, что подкрутить в cd, чтобы быстрее пошло, а то уж больно много страниц нужно спарсить.
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Ограничение скорости персонально на ип, стоит попробовать через список прокси с разными useragents
     
  9. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Пробовал через список прокси - вообще не парсит. Замирает все - скорость парсинга 0.
     
  10. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Если, не ошибаюсь при предпросмотре - документ кешируется - визуально скорость парсинга быстра
    Может прокси в бане у конркетного сайта, который вы пытаетесь парсить, или прокси не поддерживает передачу POST запросом
     
  11. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    безусловно вы правы, но я надеялся, что с настройками можно поиграться и получить нужный результат:)
     

Поделиться этой страницей