Парсить артикул перед которым разное количество не нужных слов?

Тема в разделе "Функции поиск-замены и регулярные выражения", создана пользователем MaiklWizard, 22 фев 2018.

  1. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Прошу помощи у гуру и знающих людей данной программы.
    Как у данной позиции взять артикул??
    Ссылки недоступны для гостей 193V5LSB2/10 тут артикул без скобок, и постоянное разное количество слов перед ним. Т.е. какой последний символ я отследить могу: Ссылки недоступны для гостей - вот к примеру. А вот перед ним постоянно разное количество.

    и Ссылки недоступны для гостей (NX.GGLEU.004) - тут артикул в скобках, что облегчает его парсинг - т.е. от скобки до скобки = одна колонка. А как в соседнюю спарсить то что без?
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Граница 5 это допустим описание.
    В поиск-замена для этой границы добавим маску через регулярное выражение:
    Код:
    re:([A-Z0-9\/\\,\.\+\-_]{6,})|<art>$1</art>
    В шаблоне вывода:
    Код:
    [FIRST_REPLACE(re:([A-Z0-9\/\\,\.\+\-_]{6,})|<art>$1</art>{break}<art>{get}</art>|{get})]<CD_GRAN_5!>[/FIRST_REPLACE]
    Пример работы

    [​IMG]
     
  3. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Ссылки недоступны для гостей - может я чтото не то делаю? не получается.
    А приложил свой макет.
     

    Вложения:

    • PROTOVAR.rar
      Размер файла:
      6,5 КБ
      Просмотров:
      0
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    На скриншоте не заметил поля или макроса поиск-замена.:)
     
  5. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Недопонял?
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Внимательно прочтите пост №2
    Если непонятно в каком-то моменте, так и напишите.
     
  7. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Не понял, где и на что вводить. Я пока через инверсию сделал. Но получил другие ошибки:
    Ссылки недоступны для гостей - вот что на выходе получается. Я взял от последнего слова, и до пробела. И получился некоторый диссонанс.
    Например у поставщика на сайте, такой артикль:

    Dell Vostro 5471 (N206PVN5471 UBU)

    Следовательно после инверсии, и до пробела мне скопипастилось: UBU) - а мне нужно, чтобы скописпастилось все что в скобках + вот этот пробел в скобках заменился на "_" т.е. на выходе чтобы в ячейку первого столбца вставилось так: N206PVN5471_UBU (желательно уже без скобок, но скобки то такое, их и в екселе убрать просто).

    Также если артикль без скобок и правильный, при инверсии, он копируется правильно: т.е.
    Dell XPS 13 XPS9360-1249SLV - следовательно копируется так: XPS9360-1249SLV

    Но тогда возникает проблема с такими товарами: PHILIPS SHE3550 White, где артикуль уже: SHE3550 - и при том, что до него слева направо - может быть несколько слов, - т.е. он не попадает ни под какое правило, его только ручками в конечном итоге.

    И еще вопрос. Как парсеру указать, чтобы парсил только например ноутбуки: Ссылки недоступны для гостей, ведь в самой ссылке нигде нет: привязки к категории, я у себя копипаст в ексель самой категории сделал следующим образом: Ссылки недоступны для гостей - т.е. по факту выдрал из описания. Нигде на странице не указано, что данные товары он берет из раздела:Ссылки недоступны для гостей. И как этот момент побороть я тоже не знаю и вообще возможно ли. Так как мне весь сайт не нужен, а нужно лишь -5, 10 категорий, его ))

    Приложил уже видоизмененный проект.
     

    Вложения:

  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    1. Откройте программу Content Downloader.
    2. Добавьте ссылку (нажмите клавише F8) на товар чтоб настроить проект.
    3. Перейдите в указание границ (сочетание клавишь Ctrl+1), выберите "граница парсинга 5" и для нее назначьте захват "описание товара" на сайте. Как назначить границы подробнее в справке Ссылки недоступны для гостей
    4. После того как назначили границу на "описание товара", укажите в "дополнительные настройки границ" (сочетание клавишь Ctrl+4) и вверху нажмите кнопку с названием "граница парсинга 5"
    5. Для "граница парсинга 5" внизу теперь видно окно и над ним надпись "функция поиск-замена", вставьте ниже приведенные замены:
    Код:
    re:([A-Z\,\.]{5,})|
    re:([0-9\,\.]{5,})|
    re:([A-Z0-9\/\\,\.\+\-_]{6,})|~art#$1#art~
    ~art#{get}#art~|{get}
    В замене использованы регулярные выражения (что это такое - подробнее на Ссылки недоступны для гостей)
    6. В шаблоне вывода (сочетание клавишь Ctrl+2) в любом нужном месте вставьте границу <CD_GRAN_5!> и выведет артикул (вернее то что смогло регулярками выловить похожее на артикул).

    п.с. Один вопрос - одна тема, не смешивайте пожалуйста разные вопросы в одном месте. Для оперативного решения есть платный раздел или обратитесь к специалистам по настройке Ссылки недоступны для гостей
     
    MaiklWizard и Root нравится это.
  9. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Ссылки недоступны для гостей - получилось обратное - то что в скобках он перестал копировать, и с артикла где пробел вместо замены пробела на _ просто удалил букву ))
     
  10. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Попробовал так добавить - Ссылки недоступны для гостей - тестовых пять позиций нормально, посмотрим что со списком будет
     
    Root нравится это.
  11. Adema

    Adema New Member Пользователи

    Регистрация:
    8 мар 2018
    Сообщения:
    4
    Похожая проблема, только артикул в начале названия товара. Как выцепить его отдельно из названия?
    upload_2018-4-12_4-1-53.png
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Поиск-заменой:
    Код:
    {get} |{get}
    Обратите внимание на пробел после первого {get} (взять все от начала текста до первого встретившегося пробела).
     
    Adema и xLime нравится это.
  13. xLime

    xLime Well-Known Member Супер Модератор Модератор

    Регистрация:
    4 сен 2017
    Сообщения:
    401
    Добрый день.
    Старайтесь дублировать текст в картинке. В данном случае блок с наименованием.
    Изучите Ссылки недоступны для гостей.
    Вам подойдет следующая функция:
    Код:
    re:^[\s\t]+|
    {get}%пробел%|{get}
    РВ просто на всякий случай - оно удалит все пробелы и переносы в начале строки.
    [​IMG]
     
    Adema и Root нравится это.

Поделиться этой страницей