Скачать всю страницу в файл

Тема в разделе "Решение различных задач по парсингу", создана пользователем Grushe, 30 окт 2019.

  1. Grushe

    Grushe Member Пользователи

    Регистрация:
    10 апр 2014
    Сообщения:
    45
    Как скачать по списку URL весь html каждой страницы в отдельный файл и задать ему имя.
    Нужно, чтобы потом не сайт парсить, а файлы на компьютере.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    В шаблон вывода
    Код:
    [DOCSOURCE][DOCNAME][NOFOLDER]<CD_AUTO_HEADER!>.html[/DOCNAME]
     
    Root нравится это.
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    [DOCSOURCE] выводит весь код WEB-документа, а с помощью
    [DOCNAME] можно задавать имена для сохраняемых документов.
     
  4. Grushe

    Grushe Member Пользователи

    Регистрация:
    10 апр 2014
    Сообщения:
    45
    да, сохраняет HTML в файл. А как сделать, чтобы не скачивались отдельно картинки в папку?
    Галочка не стоит Ссылки недоступны для гостей , а программа все равно скачивает картинки
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  6. Grushe

    Grushe Member Пользователи

    Регистрация:
    10 апр 2014
    Сообщения:
    45
    Спасибо большое.
     
    Root нравится это.
  7. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    подниму тему, а есть ли возможность после скачки полностью всех страниц сайта согласно карте сайта, сделать сквозной ребилд страниц, что-бы можно было смотреть-ходить по сквозным ссылкам в оффлайне ? мне очень не хватает функционала для полной скачки сайта.. раз в год да нужно подобное, в основном это тексты с картинками без динамики и явы
     
  8. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    868
    Ссылки недоступны для гостей
     
  9. ITz

    ITz Member Пользователи

    Регистрация:
    31 янв 2020
    Сообщения:
    43
    Город:
    Third Rome
    не я уже все эти проги перепробовал, они все древние как мамонты а сейчас уже не то время, сейчас сайты просто так в лоб не спарсишь, нужны прокси в карусели с задержками, в целом CD для этого отлично подходит, одна проблема это как заребилдить все это в один целый сайт на локале, есть конечно мысли оформить wget в карусели с проксями и автомат-ребилдом линков на python'e для этих целей, но пока это только планы)
     

Поделиться этой страницей