Повторный парсинг - обращается к кэшу или к сайту?

Тема в разделе "Разное", создана пользователем Atlas, 7 авг 2018.

  1. Atlas

    Atlas New Member Пользователи

    Регистрация:
    10 мар 2018
    Сообщения:
    59
    Добрый день.
    Задача такая. Есть список ссылок. Каждую страницу нужно посетить условно 10 раз (т.к контент на сайте появляется с заходом посетителя; нет посетителей - нет контента).
    Я хочу сэмулировать обращение к каждой странице. Для этого я задал границу парсинга <body></body> и запустил парсинг проекта в txt. Открыл планироващик и добавил этот же проект 10 раз.
    Скорость выполнения меня устраивает. Но возник вопрос - при повторном парсинге одной и той же ссылки программа обращается к сайту или берет данные из кеша? Второй вариант, как вы уже догадались, мне не подходит, т.к нужно все 10 раз обратится к сайту...
     
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    9.886
    Город:
    Сочи
    Здравствуйте.

    Кеширование в данном случае происходить не должно.
     
    Atlas нравится это.
  3. Atlas

    Atlas New Member Пользователи

    Регистрация:
    10 мар 2018
    Сообщения:
    59
    Скажите, пожалуйста, у меня сейчас vps 3 ядра 3 озу, парсинг этой задачи запущен в 10 потоков, скорость около 20-30 документов в секунду.
    Пробовал ставить 20-30-50 потоков, скорость обработки не меняется.
    Увеличение мощностей vps повлияет на скорость при большем кол-ве потоков?
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    383
    Не факт. Все зависит от мощностей сервера, на котором расположен сайт, который вы парсите.
    Если, сайт работает на слабом сервере - запросы, при большом кол-ве обращений к серверу ставятся в очередь на обработку.
     
  5. Atlas

    Atlas New Member Пользователи

    Регистрация:
    10 мар 2018
    Сообщения:
    59
    Парсинг идет с моего же сервера. 10 ядер, 50 ram. Вроде мощный сервер, но в 20 потоков все равно парсить смысла нет, скорость как на 10.
     

Поделиться этой страницей