Вопросы по парсингу

Тема в разделе "Решение различных задач по парсингу", создана пользователем Orvin, 6 июл 2015.

  1. Orvin

    Orvin New Member Пользователи

    Регистрация:
    6 июл 2015
    Сообщения:
    28
    Здравствуйте!

    1) Отсканировал сайт и получил около 28 тысяч ссылок (каталог товаров)
    2) На основе полученных ссылок настроил парсинг, но обнаружил, что цены в каталоге вписаны разным кодом.

    Вопросы:

    возможно ли настроить парсинг с учетом разного кода html цены товара?
    возможно ли удалить html теги при парсинге?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    1) Возможно, нужно подбирать решение на конкретном примере;
    2) Ссылки недоступны для гостей (Преобразование html-кода в текст).

    С уважением к вам, Сергей.
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    вариант первый: нажмите ctrl+shift+r для вызова окна функции глобальной "поиск-замена" - тут html разных цен заменяйте на один постоянный.
    вариант второй: укажите двумя или более границами разные виды html от цен и выводите потом эти границы в шаблоне вывода через [IFNIL] GRANICA 1 [ELSE] GRANICA 2[/IFNIL]
    Ctrl+4 откроет "дополнительные настройки границ" и выбрав границу поставьте гавлочку напротив "htm to txt"
    или
    в шаблоне вывода обнимите границу макросом HTMLTOTXT (есть также антоним этого макроса с названием DELTAGS)
     
  4. Orvin

    Orvin New Member Пользователи

    Регистрация:
    6 июл 2015
    Сообщения:
    28
    сайт работает по протоколу https из-за чего постоянно появляется окно при настройке границ парсинга:
    [​IMG]
    можно ли от него как то избавиться?
     
  5. Orvin

    Orvin New Member Пользователи

    Регистрация:
    6 июл 2015
    Сообщения:
    28
    возможно ли как то изменять очередность границ парсинга в этом окне?
    [​IMG]
     
  6. Orvin

    Orvin New Member Пользователи

    Регистрация:
    6 июл 2015
    Сообщения:
    28

    не нашел HTMLTOTXT, но в моем случае сработало "htm to txt" (убрались <br/>) и макрос [HTMLDECODE] (убрались # 4 0 ; и # 4 1 ; - без пробелов)

    где тут pre?
     
  7. Orvin

    Orvin New Member Пользователи

    Регистрация:
    6 июл 2015
    Сообщения:
    28
    еще один вопрос: распозналась граница парсинга, но она пустая и с настройкой "не сохранять при отсутствии одной из границ" она не отображается на предпросмотре, я конечно добавил символы в "если граница парсинга окажется пустой..." но хотелось бы чтобы она пустой и оставалась в файле результата, как это можно сделать?
     
    Последнее редактирование: 7 июл 2015

Поделиться этой страницей