OutOfMemory при сканирование сайта

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем jeDauphin, 11 авг 2014.

  1. jeDauphin

    jeDauphin New Member Пользователи

    Регистрация:
    20 фев 2013
    Сообщения:
    91
    Здравствуйте!

    Скажите, пожалуйста, можно ли как-то избавиться от OutOfMemory при сканирование сайта?

    В компьютере 16 Гб оперативной памяти, но OutOfMemory появляется при использовании 1000-1200 Мб ОП.

    Не спорю, донор с которого собираю ссылки не маленький, в нем около 50 миллионов ссылок, но этот OutOfMemory возникает в самый неподходящий момент, даже при использовании бэкапа.

    Если избавиться нельзя, то можете есть решение как собрать такое кол-ство ссылок?
     
    Последнее редактирование: 11 авг 2014
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Только парсить сайт частями. Увы, в Windows для каждой программы выделяется всего около 1,5 ГБ памяти и от этого никуда не деться...
     
  3. jeDauphin

    jeDauphin New Member Пользователи

    Регистрация:
    20 фев 2013
    Сообщения:
    91
    Насчет парса частями я так и предполагал, но как быть со сканером сайтов? Разве можно собирать ссылки частями? А как же быть со списком очереди? Ведь проблема именно в нем, так как найденные ссылки я периодически очищаю, копирую в сторонний файл, а список очереди все время пополняется при 2,5-3 миллионов ссылок в этом списке вылетает OutOfMemory.
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Вы имели ввиду нужных ссылок или которые в "список-очереди" попали?
    Вероятно можно подкоректировать сканер чтоб поменьше брал лишнего, так сказать разгрузить благодаря оптимизированной настройкой
     
  5. jeDauphin

    jeDauphin New Member Пользователи

    Регистрация:
    20 фев 2013
    Сообщения:
    91
    В доноре около 50 милл. нужных ссылок. И потому список-очереди все время пополняются. Список найденных ссылок я периодически подчищаю, сохраняя их.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Как быть, если я хочу бегать быстрее спортбайка - никак
    Как быть, если я хочу запихнуть много гигабайт данных в полуторагигабайтовую квоту - никак
    Просто нужно искать способ, как собрать эти 50 миллионов ссылок частями. Если хотите, чтобы список очереди не пополнялся - отметьте галочку "не пополнять очередь" в сканере сайтов (но тогда и парсинг не пойдет особо).
    И на будущее - ничего нового вы тут не предложите, ничего нового не придумаете... Тема изжевана уже на сто раз!
     
  7. jeDauphin

    jeDauphin New Member Пользователи

    Регистрация:
    20 фев 2013
    Сообщения:
    91
    Спасибо за то что успокоили что нет возможности собрать все ссылки, а то мучили сомнения что я делаю что-то не так.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если бы у вас был ГОТОВЫЙ список ссылок откуда парсить конечные ссылки, то это можно было бы устроить частичной его загрузкой, парсингом, следующей загрузкой...
    Но так как сканер сайтов должен исключать дубли ссылок (не ходить по тем ссылкам, которые он уже спарсил) и, при этом, добавлять в очередь новые, в памяти программы хоть как должен быть список "отработанных" ссылок и от этого никуда не деться...
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    на сайте есть какието признаки категорий если то поделите настройки чтоб каждая свою сканировала....
    п.с. 50.000.000 это огромное число, такое встречал на космическом сайте (созвездия, звезды, метеориты и т.д.)
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Может быть у каждой страницы есть свой числовой ID?) типа page=55231432 либо article=343243 тогда проще просто сгенерировать список таких ссылок!
     
  11. jeDauphin

    jeDauphin New Member Пользователи

    Регистрация:
    20 фев 2013
    Сообщения:
    91
    Господа, спасибо что откликнулись, но я решил отбросить идею спрасить этот донор
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Слишком он огромный.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста, обращайтесь. Постараемся помочь.
     

Поделиться этой страницей