Парсинг обсуждений ВК - проблемы..

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем tronheym, 26 июл 2014.

  1. tronheym

    tronheym New Member Пользователи

    Регистрация:
    14 мар 2012
    Сообщения:
    13
    Приветствую.

    Парсю обсуждения ВК. Последний раз парсил в мае текушего года. Сейчас понадобилось вновь спарсить обсуждения. И вылезла проблема: к примеру я задал для парсинга 100 url - в итоге спарсило лишь ~80 url, т.е. часть url почему то блокируется ВК.

    Настройки парсинга - 10 потоков, задержка 1100 мсек.

    Может ВК ввело какое ограничение? В чем может быть причина? Ранее парсил по тем же условиям - парсило полностью все url.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте. В 10 потоков Контакт никогда, вроде как, не парсился =) Поставьте 1 поток и смотрите лог парсинга (ctrl+l).
    С уважением к вам, Сергей.
     
  3. tronheym

    tronheym New Member Пользователи

    Регистрация:
    14 мар 2012
    Сообщения:
    13
    Спасибо за ответ. У меня ВК в 10 потоков всегда отлично парсились обсуждения :)

    На счет моей проблемы. Похоже программу сильно нагружает опция "Поиск замена для загружаемого кода". Из-за этого и пропадают URL. Убрал в настройках проекта условия замены - спарсило все быстро и полностью. Правда с мусором.

    А условий всего 3:

    Как решить данную проблему?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я не вижу код страницы, следовательно не могу вам подкорректировать замены. Будьте добры, уж сами это сделайте... Ссылки недоступны для гостей
     
  5. tronheym

    tronheym New Member Пользователи

    Регистрация:
    14 мар 2012
    Сообщения:
    13
    вставил такую конструкцию.. что то не работает..
     
  6. tronheym

    tronheym New Member Пользователи

    Регистрация:
    14 мар 2012
    Сообщения:
    13
    В общем решил проблему пока так - активировал опцию "Пытаться повторно загружать документы" - все страницы загрузились... похоже программа иногда не может загрузить url при большом кол-ве Поиск замен для загружаемого кода..
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Поиск-замена и загрузка документа никак не связана... А вот количество потоков с этим связано! Ставьте 1 поток. Смотрите лог парсинга ctrl+l
     

Поделиться этой страницей