Тормозит при сборе ссылок

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем Lelik80, 2 апр 2015.

  1. Lelik80

    Lelik80 New Member Пользователи

    Регистрация:
    2 апр 2015
    Сообщения:
    15
    Доброго всем времени суток!
    Проблематика следующая, при работе сборщика ссылок (поток 1) через какое-то время начинаются жуткие тормоза, почему-то растет нагрузка на систему, конкретно на проц, и сбор ссылок очень затягивается.
    Подскажите, возможно из-за своего дилетантства неправильно что-то настроил, на что обратить внимание?!
    Спасибо.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пожалуйста, уточните, что имеете ввиду под "сборщиком ссылок".

    "Какое-то время" - это сколько?

    Сколько ссылок собрано до появления "тормозов"?

    Желательно приложить проект (меню - файл - сохранить проект).

    Спасибо!
     
  3. Lelik80

    Lelik80 New Member Пользователи

    Регистрация:
    2 апр 2015
    Сообщения:
    15
    Извините, сканер сайтов будет правильнее наверно.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо за уточнение. Но без деталей (что я спросил выше), а главное, без файла проекта, очень сложно разобраться в проблеме (так как у нас такого эффекта не наблюдается).
     
  5. Lelik80

    Lelik80 New Member Пользователи

    Регистрация:
    2 апр 2015
    Сообщения:
    15
    При работе сканера сайтов, тормоза начинаются примерно после 15 000 собраных ссылок
     

    Вложения:

    • mebelion.cdp
      Размер файла:
      1,2 МБ
      Просмотров:
      2
  6. Lelik80

    Lelik80 New Member Пользователи

    Регистрация:
    2 апр 2015
    Сообщения:
    15
    Могу приложить бекап, но он весит много уже, третий день собирает ссылки
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо, поставили тестировать.

    И еще пара моментов:
    1) На сколько процентов занято ядро процессора, когда "тормозит"?
    2) Сколько ссылок в очереди, когда "тормозит"?
    3) Какие ссылки обрабатывает, когда "тормозит" (приостановить работу сканера, выделить 20-30 ссылок списка очереди (shift+click), нажать правую клавишу мыши и в контекстном меню выбрать пункт "скопировать выделенное").
     
  8. Lelik80

    Lelik80 New Member Пользователи

    Регистрация:
    2 апр 2015
    Сообщения:
    15
    Загрузка проца скачет 50 -90 %
    К сожалению не засек сколько было ссылок в очереди на тот момент, сейчас найдено 24382 ссылок, в очереди порядка 227001 ссылок.
     
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Перестаньте использовать сканер сайтов
    а нормально настройте парсинг с категорий и время сократиться в разы и парсинг будет правильный.
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    в сканере необходимо добавить удаление ненужных параметров
    изза этих параметров ссылок много но они то дублированные считаются.
     
  11. Lelik80

    Lelik80 New Member Пользователи

    Регистрация:
    2 апр 2015
    Сообщения:
    15
    Спасибо, буду пробовать. Но мне казалось что сканер сайтов для этого и существует, иначе зачем его надо было делать....
     
  12. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Колега вам подсказал более "ювелирный подход" на сбор ссылок,
    но если посмотреть на источник что вы указали то станет понятно что уйдет очень много времени на проставление диапазона ссылок.
    Так-что вы правильно делаете что используете для данного источника сканер.

    Чтобы тему не растянуть на пару страниц, вот вам готовое решение которое поможет отсканировать быстро.

    Фильтр ссылок (сtrl+3), добавьте только вот это:
    Сканер (ctrl+7) настройте точно так как на скриншоте:
    В "запрещенном" указано
     

    Вложения:

  13. Lelik80

    Lelik80 New Member Пользователи

    Регистрация:
    2 апр 2015
    Сообщения:
    15
    Спасибо за развернутые ответы, все предельно понятно, буду пробовать!
    Но червячок в голове все равно спрашивает, а что же все таки со временем так затормаживает работу программы?=)
     
    Последнее редактирование: 3 апр 2015
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Список "пройденных" ссылок в памяти программы постоянно растет. На каждой WEB-странице может до нескольких тысяч ссылок. Список растет - растет время проверки каждой добавляемой ссылки на дубль (была такая ссылка "пройдена" или нет).
     
  15. Lelik80

    Lelik80 New Member Пользователи

    Регистрация:
    2 апр 2015
    Сообщения:
    15
    Ну я собственно так и подозревал, что просто нужно стараться сокращать количество сылок, буду тренироваться. Спасибо.
     
  16. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    вам нужно отфильтровать ссылки в которых используется &order так как они избыточные и не помогут найти новых ссылок на товары
     
  17. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Там помимо order, еще полно всяких фильтров выбора которые тоже в ссылке моглиб присутствовать))
     
  18. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    ну тут главное было дать понять, навести так сказать на мысль
     
  19. Werter

    Werter New Member Пользователи

    Регистрация:
    15 фев 2015
    Сообщения:
    15
    kagorec по вашим настройкам товар ищет не правильно попробуйте сами войти по ссылкам которые создались. Я тоже столкнулся с проблемой торможения компьютера, пробовал как советует kagorec и заметил, что при таком парсинге находится меньше ссылок.
     
  20. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Вам никто не мешает сделать лучше;), суть примера настроек сканера выше - показать вам что для обьемного каталога надо в сканере не просто ссылку ставить и нажать кнопку но также и ограничить так чтоб меньше хватало ссылок лишних.
    п.с. по свободному времени посканирую сравнить что не дает сбору всех ссылок
     
    Последнее редактирование: 4 апр 2015

Поделиться этой страницей