парсинг html страниц с диска

Тема в разделе "Решение различных задач по парсингу", создана пользователем Love-world, 24 мар 2019.

  1. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Всем привет. Ребят, вопрос не столько по CD но тесно связан с CD и думаю многим будет полезен.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Появилась идея сохранить html страницы средствами браузера(полностью, с папкой картинок скриптов стилей и т.д., как в браузере ctrl+s или сохранить страницу как..) по урлам для дальнейшего распарсинга локально.
    Вопрос, как это сделать пакетно? Как добавить очередь загрузок имея ссылки?
    По одной сохранять не пойдет, слишком долго. Все что нашел для оперы, это плагин "менеджер загрузок chrono", да и то через костыль "установка расширений chrome", эта штука позволяет устанавливать хромовские расширения в оперу.. Но проблема в том что этот менеджер загрузок сохраняет страницы не полностью, от чего отображается не весь контент.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Если вы страницы в браузере открываете для их сохранения, не проще ли их с такой же скоростью парсить в программе (чтобы не забанил сайт).
     
  3. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Можно ли скачивать содержимое web-страницы полностью программой, чтобы уже потом разбираться с парсингом и макросами локально?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ctrl+h -> включить Internet Explorer (DOM).
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Подойдут специализированные программы например Teleport Pro или Offline Explorer.
    Можно настроить и в C.D. тогда получиться чистая страница без лишних блоков (без ненужных шапки/сайдбаров/футера) если иметь базовые знания настраивания границ и скачивания картинок.
     
  6. Love-world

    Love-world Member Пользователи

    Регистрация:
    19 июл 2013
    Сообщения:
    102
    Спасибо всем за ответы. В общем одни мучения с этим сайтом, какой-то он параноидальный попался, видимо все таки придется менять донора.. не под силу он CD а жаль.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    даже с приличными паузами на один ip дает просматривать не более 150 страниц в день или что-то типо того, по факту загрузил около 80, а без пауз так и вовсе банит на лету. Что касаемо прокси, то тут вообще странная ситуация, то банит т.к. распознает что это прокси, то вообще страницы не загружаются, то выдает кривой контент, то пишет ошибку мол "страница не может быть загружена, обратитесь к администратору" что-то в этом духе, но что самое интересное прокся проходят валидацию (WIN) (кстати говоря не совсем понятно как работает поле "сюда введите текст или код, который должен содержаться в ответе на GET-запрос" - из системы помощи так и не понятно что сюда вводить, кусок исходного кода страницы который должен быть в случае успешной загрузки, или же кусок текста из заголовка, короче вводился и код и что-то вроде "200 OK", ни один прокси не прошел валидацию, при пустом же поле валидацию проходят, но при предпросмотре одна из вышеперечисленных ошибок, одним словом нихрена не грузится. Библиотека используется IE DOM, т.к. без яваскриптов куча контента не отображается. В общем если кто подскажет как этот сайт попарсить будет здорово, у меня мысли на этот счет закончились..
     

Поделиться этой страницей