Как отключить парсинг страниц с ответом в заголовке "HTTP/1.1 404 Not Found"?

Тема в разделе "Решение проблем с использованием программы", создана пользователем nail, 9 фев 2018.

  1. nail

    nail Member Пользователи

    Регистрация:
    15 сен 2014
    Сообщения:
    60
    Собственно вопрос в названии темы.
    Вот имеются похожие ссылки:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    с ответом "404 Not Found".
    Они все-равно добавляются в результаты парсинга.
    Хотя там нет тех границ для парсинга, что указаны в программе.
    Вроде программа должна уже по отдаваемому заголовку ответа - не парсить данные страницы и не добавлять в результирующий CSV файл.
    Как быть?
    Версия программы: Content Downloader X1 версии 11.1.0000303 (03.02.2018)
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Не добавляются:
    2018-02-09_19-57-19.png

    Приложите ваш файл проекта.
     
  3. nail

    nail Member Пользователи

    Регистрация:
    15 сен 2014
    Сообщения:
    60
    Приложил проект и то, что получается )
     

    Вложения:

  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Страница с 404 не загружается (не добавляется в результат парсинга). Непонятно, где проблема.

    2018-02-10_03-36-29.png

    2018-02-10_03-35-56.png
     
  5. nail

    nail Member Пользователи

    Регистрация:
    15 сен 2014
    Сообщения:
    60
    Там же в колонке Наименование куча сообщений:
    <span class="type">HTTP_Exception_404 [ 404 ]:</span> <span class="message">The requested URL :uri was not found on this server.</span>

    И эти страницы как-раз таки и отдают 404 ошибку.
    И их в CSV не должно быть вроде.
     
  6. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Можете настроить фильтрацию документов(shift+ctrl+f). Добавьте [ 404 ] и т.д. в список ключевых слов и выберите опцию "Документ будет отфильтрован".
     
    Root, nail и napserious нравится это.
  7. nail

    nail Member Пользователи

    Регистрация:
    15 сен 2014
    Сообщения:
    60
    root-то говорит, что они по-умолчанию вообще в список CSV не должны добавляться. Вот только у меня что-то не так. Парсятся все страницы с ответом 404.
    Или реально так изначально задумано. Хотя в том году такого не было вроде. Может в каком-то обновлении так задумали?
    Вот после этой темы что-то доработали: http://forum.sbfactory.ru/threads/m...-s-stranic-s-otvetom-404-ili-dr-oshibok.5353/
    С этим случайно не связано?
     
  8. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    nail, способ gans-a поможет, добавьте в фильтр(ctrl+shift+f) HTTP_Exception_404 и галочку на "документ будет отфильтрован".

    С другими сайтами где выдает 404 все работает нормально.
    Все дело в том что у них не настроен возврат 404 нормально, по этому на экране и высвечиваются куча ощибок из разных документов.
     
    Root и nail нравится это.
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Смотрите:
    2018-02-10_15-10-18.png
    Как видим, файл вообще не создается.

    Так как библиотека INDY в программе одинаковая у меня и у вас, то и работает одинаково. Но вот на вашем ПК я, думаю, какое-то "говно" вмешивается в HTTP-запросы и подменяет данные. Полагаю, это может происходить со стороны фаерволла, антивируса или даже в сетевом роутере.

    Для фильтрации документов в вашем случае используйте флажки "обязательна" в дополнительных настройках границ парсинга (ctrl+4).

    С уважением к вам, Сергей.
     
    xLime, napserious и nail нравится это.

Поделиться этой страницей