Ломает файл при парсинге CSV

Тема в разделе "Решение различных задач по парсингу", создана пользователем Stan, 1 окт 2021.

  1. Stan

    Stan Active Member Пользователи

    Регистрация:
    15 июн 2011
    Сообщения:
    499
    Здравствуйте.
    Паршу сайт , описание с Html, в ansi , и происходит такое на скрине. У некоторых ссылок. Не все. 2021-10-01_135142.gif Переносы частей описания на другие строки, что ломает весь файл при парсинге.
    Проект приложил пример.
    Если переключить в utf-8 Без bom, то всё норм, но после парсинга , все равно некоторые ссылки ломаются. там dynamicvalues и сайт большой. задолбался по 2 дня перепаршивать.

    Сейчас паршу с разделителем ячеек - ^. Просто понять, что там не так(чтоб в будушем косяки не встречались), и можно ли файл csv c такими косяками починить как -то .
     

    Вложения:

    • ec3.cdp
      Размер файла:
      42,6 КБ
      Просмотров:
      5
  2. masrub

    masrub Well-Known Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    194
    По вложенной ссылке все корректно парситься.
    Может тогда скачать html страницы сайта на жесткий диск и не париться с перекачивание по 2 дня, возможно так быстрей дело пойдет.
     
    Stan нравится это.

Поделиться этой страницей