Ошибки при парсинге без DOM

Тема в разделе "Решение проблем с использованием программы", создана пользователем r3dkill, 3 мар 2015.

  1. r3dkill

    r3dkill New Member Пользователи

    Регистрация:
    3 мар 2015
    Сообщения:
    3
    Здравствуйте!
    История такова:
    есть ~67000 ссылок
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Пробовал ставить cookie - не помогает


    Вопрос: как парсить в 50 потоков? можно ли без DOM парсить?
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    ответ: в 50 не надо, у вас умрет компьютер
    данный сайт без DOM нельзя парсить.
    поставьте в 1 поток и сделайте в ctrl+h чуть меньше времени, например 1500.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте!

    Компьютер от этого не умрет, а вот сайт "завалить" можно...

    Для ускорения парсинга через IE (DOM) можно делать это:
    Ссылки недоступны для гостей (Значительно ускоряем процесс парсинга и исключаем возможный пропуск данных (ожидание появления определенных элементов на WEB-страницах))
    И парсить в 2-3 потока.


    С уважением к вам, Сергей...
     
  4. r3dkill

    r3dkill New Member Пользователи

    Регистрация:
    3 мар 2015
    Сообщения:
    3
    попробовал настроить как в видео "Значительно ускоряем процесс парсинга"

    в 3 потока время совсем не приемлемое стало более 80 часов...
    в 20 потоков порядка 15 часов

    может я что-то не правильно делаю?
    буду благодарен, если посмотрите настройки
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Дайте список ссылок, которые вы парсите. Тогда постараемся вам помочь.

    Спасибо!
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    с виду все правильно, но с такими настройками не более в 10 потоков парсите.
     
  7. r3dkill

    r3dkill New Member Пользователи

    Регистрация:
    3 мар 2015
    Сообщения:
    3
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    При таком списке событий:
    В 10 потоков на парсинг 43000 ваших ссылок у меня показывает 15 часов (примерно 1 документ в секунду). Быстрее вам сейчас никак не сделаю. Как вариант - задействуйте большее количество компьютеров для парсинга.

    С уважением к вам, Сергей.
     

Поделиться этой страницей