Парсинг "Таблица характеристик"

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Globomen, 14 фев 2017.

Статус темы:
Закрыта.
  1. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    Здравствуйте!
    Подскажите логику, парсинг стандартных характеристик не вызывает вопросов (название характеристики/значение характеристики), а вот как парсит нестандартную структуру характеристик (название характеристики, название характеристики, название характеристики..../значение характеристики, значение характеристики, значение характеристики....) не совсем понял.

    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Куда копать?!

    То ли это можно решить ч/з повторяющиеся границы, то ли заменой или это вообще HTML - таблица, так и не понял.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.822
    Город:
    Riga
    Хорошо что донора показали, сразу понятно - вам спец макросы помогут Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! [HORIZTABLE] или [VERTTABLE]
     
    Globomen нравится это.
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.478
    Здравствуйте.

    2017-02-15_00-00-32.png

    2017-02-15_00-00-22.png

    С уважением к вам, Сергей.
     

    Вложения:

    • evan_ru.cdp
      Размер файла:
      32,4 КБ
      Просмотров:
      4
    Aleksey746 и Globomen нравится это.
  4. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    Приятно удивлен, не только подсказали, но и готовый файл проекта дали! Спасибо!

    К сожалению, не все так радужно, у этого "засранца" (т.е. донора), таблицы характеристик разные, про верстку вообще молчу.

    Др. карточка товара: Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    А что здесь делать?! Пока что нашел в помощи "метод размножения ячеек": Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
    Root нравится это.
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.478
    Здравствуйте.

    Доработал:
    2017-02-15_10-03-24.png

    В итоге получаем желаемый результат

    2017-02-15_10-03-08.png

    С уважением к вам, Сергей...
     

    Вложения:

    • evan_ru_2.cdp
      Размер файла:
      32,5 КБ
      Просмотров:
      7
    Aleksey746 и Globomen нравится это.
  6. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    Отлично и обновления кстати вышло, "Таблицу характеристик" победил. Спасибо!

    Осталось пару вопросов, пока попробую сам по справке пройтись, потом апну тему.
    Один из вопросов: Не понял, почему при парсинге из 454 товаров в результирующей таблице только 206 товаров?!
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.478
    Причин может быть много, смотрите лог парсинга (ctrl+l).
     
    Globomen нравится это.
  8. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    "Файл не сохранен: программе не удалось загрузить страницу" Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    Ну и "Донор", при ручном копирование (серфинге) сайт "падает" на каждой 5-10 странице. Как побороть?!
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.478
    2017-02-15_23-26-02.png
     
    Globomen нравится это.
  10. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    Здравствуйте!
    Вопрос решил, увеличил "количество попыток загрузки документа", "паузу м/д попытками", уменьшил "количество потоков" парсинга и указал "кодировку загружаемого документа", совокупность настроек дало результат.
    Т.к. проект делаю под конкретный модуль загрузки на сайт и в довесок это первый проект в C.D., есть вопросы:
    1. "Таблица характеристик" (HTML-таблица) Как сделать чтоб название характеристики шло по всему столбцу, а значение в соседнем столбце?!
      Сейчас "все красиво", название характеристики это имя столбца, надо чтоб было два столбца, одно с "названием характеристики", другое с "значением характеристики" (что-то вроде "лесенки").
    2. "Изображение" Как вывести полный путь на изображения (с именем сайта, а не только адрес внутренний страницы)?!
      Само изображение скачивать не надо, нужна абсолютная ссылка на изображение.
    3. "Цена" Как сделать конвертацию цены по формуле?!
      По сути, ничего особенного, конвертировать исходную цену в другую валюту в соседнем столбце.
    Прикладываю файл проекта.

    Примечание: Почитал документацию к программе, все классно, функции много, но мозг вскипел, с наскоку все не освоить.
     

    Вложения:

    • evan_ru.cdp
      Размер файла:
      49,8 КБ
      Просмотров:
      2
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.478
    Здравствуйте.

    1) Такой возможности при использовании макроса [DYNAMICVALUES] ([HORIZTABLE]/[VERTTABLE]) пока нет с вашими разноформатными таблицами (с того сайта). Нужно смотреть в сторону этой темы Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!

    2) Просто добавить в шаблоне вывода нужный текст к пути изображения (и не скачивать изображение макросами <DOWNLOADFILE>);

    3) Макрос шаблона вывода <TOPRICE> Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
     
    Globomen нравится это.
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.478
    Можно сделать функцию преобразования во встроенном редакторе CSV. Вас устроит такой вариант?
     
    Globomen нравится это.
  13. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    Конечно же, меня устроит такой вариант. Как это сделать, ссылку на инструкцию можно?!
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.478
    Функция еще не реализована.
     
    Globomen нравится это.
  15. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    Буду ждать обновления, подобных доноров полно....

    Странная ошибка, при парсинге "Таблицы характеристик" в результирующем документе в поле "Мощность" отображается дата (в некоторых товарах), должно быть "2.5", по факту "02.05.2017". Это что?! Ч/з поиск-замену исправлять, тогда как?!

    Исправил макросом [REPLACE(.|,)], такая же ошибка в "Ступенях мощности", должно быть "5 / 5 / 5", а выводит "дату" (как с предыдущей характеристикой). На что заменить "/"?!
     
    Последнее редактирование: 18 фев 2017
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.478
    Это Excel уже сам автоматически преобразует в дату, мы не причем.

    Если можно, приложите пример файла CSV до обработки и после обработки (какой должен получиться), чтобы были понятны нюансы. Спасибо!
     
    Последнее редактирование: 18 фев 2017
  17. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    Да, это известная проблема в Excel, побороть практически невозможно, есть такой вариант: файл - параметры - дополнительно - снять галочку "использовать системные разделители", тогда десятичные дроби не преобразуются в даты.

    Но это не мой случай, у меня обыкновенные числа, с обыкновенными числами пока не нашел решения.
    Хорошо, как будет готово выложу.

    Суть, файл не CSV формата, а XML для модуля "Автоматическая обработка прайс-листов" (OpenGart), плюс модуль имеет свои требования для загрузки данных (подгоняю под него).
     
  18. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.617
    а зачем вы открываете его в екселе? если это xml
     
  19. Globomen

    Globomen Member Пользователи

    Регистрация:
    30 янв 2017
    Сообщения:
    21
    Для доработки, а где вы предлагаете его открывать?!
     
  20. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.617
    опен офис, если это ексель, если xml то просто блокнотом
    хотя может я чего-то не знаю
     
Статус темы:
Закрыта.

Поделиться этой страницей