Парсинг с условием ЕСЛИ

Discussion in 'Решение различных задач по парсингу' started by Max Human, Jun 20, 2014.

  1. Max Human

    Max Human New Member Пользователи

    Joined:
    Jun 20, 2014
    Messages:
    18
    Приветствую,

    Вопрос: Подскажите плз, есть ли в CDX функция парсинга с условием и дальнейшей обработкой текста по этому условию?

    Пример:

    - На входе: Ссылки недоступны для гостей
    - На выходе: CSV-файлик с характеристиками смартфона;

    Что надо:
    - Если в тексте URL есть i9300, то в ячейку А1 (CSV) надо подставить Samsung.

    Примечание: хотелось бы подтягивать "текстовые соответсвия" из файлика, например запись такого вида: samsung|i9300|s3


    Заранее, благодарю
     
  2. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Ребята, кто знает регулярки, подскажите, пожалуйста...
    Если к завтру решения не подскажут, сделаю соответствующую функцию. Приношу извинения за ожидание.
     
  3. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Такое вот решение вас устроит?
    Где iPhone - искомое вхождение
     
  4. kagorec

    kagorec Администратор Staff Member Администратор

    Joined:
    Jan 3, 2011
    Messages:
    4,442
    Location:
    Latvia
    Хотелось бы уточнения от автора, а именно пару живых примеров/ссылки (сам домен не важен, окончания надо)

    Решение покачто для разных ссылок вижу такое:

    1. Граница парсинга цепляет ссылку на товар (она полюбому на странице товара в коде есть)
    2. Дополнительные настройки границ парсинга - открываем границу там именно которая ссылку цепляет, и ниже есть окно "поиск-замена"
    3. В поиск-замена используем регулярные выражения или просто замену, тут как фантазия пойдет. Например ...../turum-burum-i9300-opa-chirik.html в такой ссылке мы заменим модель на модель в своих метках
    i9300|##i9300@
    если так подумать то ссылка уже станет с моделью выделенной ...../turum-burum-##i9300@-opa-chirik.html
    и остается из меток выдрать макросом {get}

    На деле список замен следующий:
    п.с. надеюсь правильно понял/догодался что нужно автору темы.
     
  5. Max Human

    Max Human New Member Пользователи

    Joined:
    Jun 20, 2014
    Messages:
    18
    Регулярки вещь классная, но в данном случае не совсем подходит, т.к.:

    Под любой вариант "поиск-замена" надо писать регулярку - это не целесообразно, т.к. вариантов может быть бесчисленное множество;
    Хотелось бы, что бы парсилось на лету;
    И обязательно тянулось из файла, по конструкции samsung|i9300|s3 - в прямом, обратном и случайном порядке.
    ---
    Если уж и идти путем "замена как нибудь по другому" - то можно расмотреть вариант "примерно так же, только в excel"
     
    Last edited: Jun 20, 2014
  6. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Простите, но с этим пока не помогу. Слишком уж редкая задача, требующая трудоемкого решения. Давайте лучше рассмотрим вариант парсинга производителя со страницы товара...
     
  7. Max Human

    Max Human New Member Пользователи

    Joined:
    Jun 20, 2014
    Messages:
    18
    Дело даже не в производителе, это всего лишь пример.
    Задача намного шире, и я бы назвал ее примерно так: "Маркировка контента".

    Давайте представим, что есть исходный сайт, от куда я хочу снять 10К статей. Все эти статьи "о чем-то" и мне надо присвоить каждой статье свою метку (или группу меток), в зависимости от содержания.

    Для этого, я подготовил некую Базу (файлик) в котором описал возможные связи. Например, запись в Базе такого вида: samsung|i9300|s3 - говорит, что если в тексте встретится слово samsung или i9300 или s3 - то маркер для этой статьи будет samsung - далее, этот маркер я добавляю в результирующий файл, например CSV.

    Таким образом, я бы мог маркировать текст гораздо быстрее (а главное точнее), и добавлять несколько меток.

    з.ы. Если надо подождать - я подожду))) Главное понимать, - идею в работу возьмете или нет.
     
  8. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Спасибо за предложение, но эту идею я пока реализовать не возьмусь. Очень уж она специфична...
    Подсчет и вывод самых часто встречающихся слов в статье (автокеи) - это более востребовано, за это бы еще взялся.
    Надеюсь на понимание. С уважением к вам, Сергей.
     

Share This Page