Теряется найденный текст после функций преобразования

Тема в разделе "Решение различных задач по парсингу", создана пользователем VitalyTR, 9 авг 2018.

Статус темы:
Закрыта.
  1. VitalyTR

    VitalyTR Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    29
    Город:
    Минск
    Используется повторяющаяся граница, которая находит на странице 10 блоков для парсинга. В каждом блоке 5 границ парсинга.

    В режиме "Предпросмотр элемента" пошагово я вижу, что все "Границы парсинга" программа находит правильно. Убирает с них пробелы и лишние br тоже правильно. То есть в итоге я получаю 5 правильных фрагментов текста, которые должны сохраняться в csv. Вот пример границы парсинга 4:
    upload_2018-8-9_21-43-32.png

    А вот далее, в промежутке между 14 и 18 преобразованиями, все теряется:
    upload_2018-8-9_21-45-57.png

    пробовал уже и отключать преобразование htm->txt, и отключать удаление пробелов. Ничего не могу понять, куда теряется информация!
     
  2. VitalyTR

    VitalyTR Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    29
    Город:
    Минск
    Шаблон вывода:
    [GRAN1][CSVCS][GRAN2][CSVCS][GRAN3][CSVCS][GRAN4][CSVCS][GRAN5][CSVCS]
     
  3. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Вы пишите
    Но в шаблонах вывода нигде не используется макрос вывода повторяющейся границы
    Предположу, вы не правильно составили шаблон вывода - у вас данные просто сдвигаются в таблице
     
    VitalyTR нравится это.
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Квадратные теги границ используются только в повт.границах. Следовательно в шаблоне вывода выводим через повторяющуюся границу
     
    VitalyTR нравится это.
  5. VitalyTR

    VitalyTR Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    29
    Город:
    Минск
    upload_2018-8-9_22-48-50.png

    upload_2018-8-9_22-49-56.png

    Возможно, так полнее будет информация
     
    kagorec нравится это.
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Приложите проект.
     
    Root нравится это.
  7. VitalyTR

    VitalyTR Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    29
    Город:
    Минск
    Вот проект (аттач архив).
    .wbapp-файл в нем на парсинг контента, не ссылок.
     

    Вложения:

  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Проверил, что не так?)

    Назначенные границы собирают что могут с первой страницы

    [​IMG]
     
  9. VitalyTR

    VitalyTR Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    29
    Город:
    Минск
    Ну так а где информация в столбцах Position, Company, Jobs?
    Ведь парсер их отбирает!
    Вот этот мой ранее пощенный скриншот для ячейки в колонке Jobs Info:
    [​IMG]
    О том и речь, что он собирает, а потом куда-то затирает! И я не могу никак найти, почему и как это исправить :(
     
  10. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    При задании внутренних границ в повт. границе не обнаружил чтоб они что-то цепляли из элементов кода.
    п.с. Авторизовался своим аккаунтом.
     
    Kreol нравится это.
  11. VitalyTR

    VitalyTR Member Пользователи

    Регистрация:
    18 июн 2018
    Сообщения:
    29
    Город:
    Минск
    Все, вопрос решен, спасибо всем, пробовавшим помочь! :cool:

    Проблема была вот тут (на скриншоте выделено красным). Уж не знаю, каким образом, но эти фрагменты были отмечены цифрой 1 - и в мой набор не попадали. Перелопатил все, нашел решение, сравнивая 2 проекта буквально "по-байтно".
    upload_2018-8-13_7-8-46.png
     
Статус темы:
Закрыта.

Поделиться этой страницей