Весь код страницы сайта в одну ячейку

Тема в разделе "Решение различных задач по парсингу", создана пользователем vsavelyev, 17 авг 2018.

  1. vsavelyev

    vsavelyev New Member Пользователи

    Регистрация:
    17 авг 2018
    Сообщения:
    4
    Город:
    Москва
    Как правильно экранировать код сайта при парсинге (к примеру тот что между тегами <html> </html>) что бы он в какой-то момент не начинал все теги с одной страницы закидивать по разным ячейкам. В итоге должно получиться:

    url1 код(теги теги теги)1
    url2 код(теги теги теги)2
    url3 код(теги теги теги)3
    url4 код(теги теги теги)4

    А сейчас выходит:

    url1 код(теги теги теги)1
    url2 код(теги теги теги)2
    url3
    код(
    теги
    теги
    теги)3
    url4
    код(
    теги
    теги
    теги)4
     
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Использовать макрос [DOCSOURCE]
    [​IMG]
    или в дополнительных настройках границ парсинга указать - в одну строку
    [​IMG]
     
    xLime нравится это.
  3. vsavelyev

    vsavelyev New Member Пользователи

    Регистрация:
    17 авг 2018
    Сообщения:
    4
    Город:
    Москва
    Не выходит, все равно все рассыпается
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Приложите проект, если можно
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    В глобальной поиск-замена
    заменить {br} на пробел
     
  6. vsavelyev

    vsavelyev New Member Пользователи

    Регистрация:
    17 авг 2018
    Сообщения:
    4
    Город:
    Москва
     

    Вложения:

    • site-all.cdp
      Размер файла:
      38,8 КБ
      Просмотров:
      3
  7. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    По вложенному проекту не удалось воспроизвести ошибку
    Данные собираются в одну ячейку таблицы
    [​IMG]

    [​IMG]
     
  8. vsavelyev

    vsavelyev New Member Пользователи

    Регистрация:
    17 авг 2018
    Сообщения:
    4
    Город:
    Москва
    Так и в моем примере по началу все нормально идет, а потом сыпаться начинает.. попробуйте все ссылки спарсить
     
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Надо не теги экранировать, а ; (вы же открываете в excel-e он автоматом разбивает по разделителям.) вот оно и сыпется.
    Также оно будет перескакивать или обрезать код если он будет превышать 8000 символов или что-то около того.
    В openefiice надо такие вещи смотреть) там все четко обычно.
    и вопрос 2, ЗАЧЕМ это вам в ЭКСЕЛЕ ТО?
    Сохраняйте html отдельные
     

Поделиться этой страницей