Не могу разобраться как парсить страницы

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем 4toy, 24 июл 2015.

  1. 4toy

    4toy Member Пользователи

    Регистрация:
    8 июл 2015
    Сообщения:
    52
    Думал что мне "горы по плечу" в парсинге и вот
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    однако сначала началось "out of memory" - уменьшил число потоков
    потом скачались какие то крохи а потом вообще все начало звенеть
    при попытке начать парсинг
    Прошу помощи гуру!:nerd:
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пожалуйста, предоставьте скриншоты ошибок или проблем. Также приложите ваш файл проекта, который вызывает ошибки.

    Спасибо!
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Укажите сканеру в список очередь эту ссылку, чтоб только один из языков собирал. Далее методом проб и ошибок отсеивайте лишнее указывая в список запрета куда сканеру не надо заходить.
     
  4. 4toy

    4toy Member Пользователи

    Регистрация:
    8 июл 2015
    Сообщения:
    52
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    хотя в реальности там гораздо больше - почему?
     
    Последнее редактирование: 25 июл 2015
  5. 4toy

    4toy Member Пользователи

    Регистрация:
    8 июл 2015
    Сообщения:
    52
    А вы указывали - работает? тк у меня выдает что "эта страница пустая или не существует"(
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Постоянно указываю всем сайтам когда работаю, чтоб не хватало лишнее.
    К примеру у вас на скрине видно что pdf документы захватило, зачем они непонятно, надо в запрет добавить.
     
  7. 4toy

    4toy Member Пользователи

    Регистрация:
    8 июл 2015
    Сообщения:
    52
    А от у меня при вводе этого адреса - вообще не парсит ничего(
    Пишет что сраница пуста
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Изучите принцип работы сканера Ссылки недоступны для гостей и, думаю, вопросы отпадут.

    PS: Файлы PDF тоже фильтруйте, скорее всего они всю память отъедают.
     
  9. 4toy

    4toy Member Пользователи

    Регистрация:
    8 июл 2015
    Сообщения:
    52
    PDF удалил, спасибо за наводку
    Вобщем путем танцев с бубнами удалось мне спарсить все
     

Поделиться этой страницей