Загрузка, кодировка, разный результат предпросмотра и парсинга

Тема в разделе "Решение проблем с загрузкой WEB-страниц", создана пользователем seva100, 29 апр 2021.

  1. seva100

    seva100 Member Пользователи

    Регистрация:
    29 мар 2018
    Сообщения:
    38
    Версия программы: 11.1.0000373

    Задача: спарсить декларации о доходах. Пример нескольких ссылок:
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Описание проблемы (на примере одной ссылки):
    На вкладку «Контент» вставляю ссылку:
    Ссылки недоступны для гостей

    Настройки запроса к сайту:
    1.png
    Граница сайта:
    2.png
    На странице «Задание границ… » кодировка выставлена в AUTO. Подгруженная страница читается. Границы опознаются.

    Предпросмотр (двойной клик на ссылке) – все ок.
    3.png

    Шаблон выдачи:
    <CD_GRAN_1!>
    [DOCNAME][REPLACE("|{break}'|{break}/|{break},|{break}.|{break};|{break}:|{break}"|{break}`|{break}&|{break}quot|{break}{br}|)] [/REPLACE] [INT_ID].html[/DOCNAME]
    т.е. в файл записать только ФИО декларанта.
    4.png
    Сохранение результата в html ANSI

    НО парсинг (F5) файл на диске не сохранят. В логе: «… документ оказался пустым». Как я понял, причина – кодировка. Текст в загруженном файле имеет другую кодировку нежели текст границ парсинга.

    ****

    И еще. Границы парсинга не использую. В файл сохранять весь документ ([DOCSOURCE]) .
    При двойном клике загружается страница с кодом:
    <!DOCTYPE html>
    <html lang="uk" prefix="og: Ссылки недоступны для гостей">
    <head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta name="description" content="Д?екларації про майно, доходи, витрати та зобов'язання фінансового характеру Садчикова Ірина за 2012 рік онлайн у відкритій базі даних проекту"> <meta name="author" content="">
    <title>
    Декларації: Садчикова Ірина Григорівна</title>
    При запуске парсинга (F5) сохранятся файл с текстом:
    <!DOCTYPE html>
    <html lang="uk" prefix="og: Ссылки недоступны для гостей">
    <head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta name="description" content="">
    <meta name="author" content="">
    <title>Електронні декларації чиновників та депутатів</title>
    ...
    Обратите внимание на <title>…</title>
    Это же совсем другая страница!!! Чудеса.
    Только не отсылайте к обновлению ПО, пожалуйста.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Приложите файл проекта со ссылками и напишите, что именно нажимать и в каком порядке, чтобы увидеть проблему.
     
  3. seva100

    seva100 Member Пользователи

    Регистрация:
    29 мар 2018
    Сообщения:
    38
    Эксперимент 1
    Дабл кликните по ссылке внизу страницы. Откроется окно "Предпросмотр элемента", в котором граница парсинга с именем Title определяется исправно. Т.е. из текста парсится текст "Садчикова Ірина Григорівна". Закройте окно предпросмотра.
    Запустите парсинг контента (F5). Проверьте наличие файла -результата в целевой папке. Файла там не будет. Проверьте лог программы. В логе: "файл не сохранен: результирующий документ оказался пустым"

    Эксперимент 2
    В шаблоне выдачи замените "<CD_GRAN_1!>" на "[DOCSOURCE]". Дабл кликните по ссылке внизу страницы. Перейдите на вкладку "Посмотреть в TXT". Обратите внимание на тег title. Закройте окно предпросмотра.
    Запустите парсинг контента (F5). Откройте в текстовом редакторе скаченный файл. Обратите внимание на тег Title
     

    Вложения:

    • Project01.cdp
      Размер файла:
      36 КБ
      Просмотров:
      1
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2021-05-01_06-34-11.png

    Также смотрите лог парсинга ctrl+l.
     
    seva100 нравится это.
  5. seva100

    seva100 Member Пользователи

    Регистрация:
    29 мар 2018
    Сообщения:
    38
    Спасибо. Я не правильно понимал различие в логике приложения при запуске парсинга с вкладок "Контент" и "Ссылки".
     
    Root нравится это.

Поделиться этой страницей