Парсинг HTML таблиц

Тема в разделе "Решение различных задач по парсингу", создана пользователем bamser, 8 ноя 2014.

  1. bamser

    bamser New Member Пользователи

    Регистрация:
    8 ноя 2014
    Сообщения:
    13
    Здравствуйте.
    Делаю по этому видео:
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    все идет хорошо до заключения в [VERTTABLE][/VERTTABLE]
    все пишется в одну ячейку((
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.287
    Здравствуйте.

    Выложите сюда ваш файл проекта (меню - файл - сохранить проект).
     
  3. bamser

    bamser New Member Пользователи

    Регистрация:
    8 ноя 2014
    Сообщения:
    13
    Здравствуйте. Вложил проект
     

    Вложения:

    • tatris_ru.cdp
      Размер файла:
      210,5 КБ
      Просмотров:
      3
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.549
    У вас очень нестандартная таблица, [VERTTABLE] как и [HORIZTABLE] предусматривают правильную html таблицу с открывающими и закрывающими тегами. У вас же все не так просто. К примеру
    <td>Тип лампы</td>
    <td>UHM™<td>
    Поэтому в данном случае лучше использовать [DYNAMICVALUES]
    Изучайте проект
     

    Вложения:

    • tatris_ru_2.cdp
      Размер файла:
      210,3 КБ
      Просмотров:
      10
  5. bamser

    bamser New Member Пользователи

    Регистрация:
    8 ноя 2014
    Сообщения:
    13
    Здравствуйте....мне он не дает ничего посмотреть...у меня начальная версия....пишет:
    Простите, но использование макроса [DYNAMICVALUES] возможно только на ULTIMATE-версиях программы
    .........
    Действительно посмотрел вторая колонка нет закрывающего тега </td>
    Ну вроде как описание выкачивает...а характеристики попробую с других сайтов надергать....
    .............
    Вопрос возник...вот я спарсил что мне нужно с сайта...а потом решил добавить колонку...ну не знаю...наличие...мне заново весь сайт парсить? (не хранит программа нигде спарсенные страницы?)...а если например новые страницы на сайте добавились?...каждый раз заново выкачивать? (но про новые нашел там можно url в файл сохранить и сканер пропустит уже выкачанные)...а вот если данные на странице поменялись?...как обновления программа может закачать или заново выкачивать все поля?
     
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.549
    а почему раньше не сказали?)
    Правильно пишет, данные макросы можно использовать только в ULTIMATE-версиях программы.
    Как быть в таком случае. Я бы делал так:
    забираете весь блок с характеристиками, потом в екселе удаляете дубликаты характеристик и получаете их 50-500, формируете динамические границы и парсите.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.287
    Здравствуйте.

    Руководствуясь логикой не сложно понять, что даже, чтобы проверить изменение данных на странице, ее нужно парсить.
     
  8. bamser

    bamser New Member Пользователи

    Регистрация:
    8 ноя 2014
    Сообщения:
    13
    ......
    Не ругайтесь я просто спросил...может в программе есть механизм....можно же не парсить а по весу или по дате изменения посмотреть...а потом парсить))
     
  9. bamser

    bamser New Member Пользователи

    Регистрация:
    8 ноя 2014
    Сообщения:
    13
    не знал что это важно))

    Правильно пишет, данные макросы можно использовать только в ULTIMATE-версиях программы.
    ........
    я понимаю что правильно))

    Как быть в таком случае. Я бы делал так:
    забираете весь блок с характеристиками, потом в екселе удаляете дубликаты характеристик и получаете их 50-500, формируете динамические границы и парсите.
    .........
    ну проще будет в экселе...найти два подряд <td> и второй заменить на </td>......а вот потом....
    может ли программа Conten Downloader парсить не с сайта а из файла?...если может из какого формата?...ну и главное где кнопка Урий? :)
     
  10. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.549
    нет, проще будет правильно задать границы и спарсить характеристики для всех товаров, а потом по ним создать шаблон для парсинга
     
  11. bamser

    bamser New Member Пользователи

    Регистрация:
    8 ноя 2014
    Сообщения:
    13
    .........
    Характеристики я спарсил....только они в таблице....а мне они нужны для каждого товара в одной ячейке в виде:
    Характеристики|Тип лампы|Энергосберегающая
    Характеристики|Форма лампы|Полуспираль
    Характеристики|Тип цоколя|E14
    Характеристики|Напряжение питания, В|220-240
    Характеристики|Частота питающей сети, Гц| 50-60
    Характеристики|Мощность, Вт|15
    Характеристики|Эквивалент лампы накаливания, Вт|75
    Характеристики|Цвет Света|Теплый белый
    Характеристики|Тип упаковки|Картон
    Характеристики|Цветовая температура, К|2700
    .........
    а Вы мне такую строчку парсинга прислали....я в ней в жизни не разберусь))) :
    [DYNAMICVALUES][REPLACE(%%%{break}###|[VALUE]:{break}^^^|[NEXTPAIR])]<CD_CYCLE_GRAN_1!>[/REPLACE][/DYNAMICVALUES]
    .........
    так что думаю в экселе проще...привести к стандартной таблице....
    а вот как?:
     

    Вложения:

    Последнее редактирование: 10 ноя 2014
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.549
    Берете вашу любую характеристику, например Характеристики я спарсил....только они в таблице....а мне они нужны для каждого товара в одной ячейке в виде:
    Характеристики|Тип лампы|Энергосберегающая
    создаете динамическую границу "Тип лампы" и так повторяете для всех.
     
  13. skyotch

    skyotch New Member Пользователи

    Регистрация:
    10 ноя 2014
    Сообщения:
    3
    Город:
    Москва
    Спарсить "характеристики" заключенные в li теги

    Вот так завернуты характеристики, DINALICVALUES - не помогает почему-то

    <ul class="product-params_items">

    <li class="product-params_item">
    <img src="/img/null.gif" alt="" class="icon i-product_prop i-param1">
    <span class="param-name"> Alloc (Норвегия)</span>
    </li>
    <li class="product-params_item">
    <img src="/img/null.gif" alt="" class="icon i-product_prop i-param3">
    <span class="param-name"> Стильные декоры Песочный холм 3806</span>
    </li>

    </ul>

    Версия - ULTIMATE
    ПОМОГИТЕ пожалуйста
     
  14. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.549
    приведите теги к виду таблицы, либо настройте правильно [DYNAMICVALUES]
    проект посмотрите ниже на пару постов
     
  15. skyotch

    skyotch New Member Пользователи

    Регистрация:
    10 ноя 2014
    Сообщения:
    3
    Город:
    Москва
    Не совсем понимаю, как это сотворить


    пост от "Вчера, 23:57"? если да то вот эта строчка "[DYNAMICVALUES][REPLACE(%%%{break}###|[VALUE]:{break}^^^|[NEXTPAIR])]<CD_CYCLE_GRAN_1!>[/REPLACE][/DYNAMICVALUES]" в моем случае как будет выглядеть, если не сложно, то сразу на моем примере показать
     
  16. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.549
    http://forum.sbfactory.ru/showpost.php?p=14021&postcount=4 вот тут проект, извините сейчас не имею времени, если не поможет, напишите мне в скайп. Спасибо.
    P.S. решили через глобальную поиск/замену с последующим использованием конструкции [DYNAMICVALUES]
     
    Последнее редактирование: 10 ноя 2014
  17. TomGood

    TomGood New Member Пользователи

    Регистрация:
    2 ноя 2015
    Сообщения:
    25
    Добрый день! Помогите, пожалуйста, разобраться с парсингом таблицы Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    При использовании макроса [HORIZTABLE] не получается (смещаются ячейки). Плюс во второй таблице есть атрибут Colspan. При использовании [APPLYTABLESPANS] + [HORIZTABLE] ничего не выводится
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.287
    Здравствуйте.

    Если можно, предоставьте пример желаемого CSV на основе указанного товара.
     
  19. TomGood

    TomGood New Member Пользователи

    Регистрация:
    2 ноя 2015
    Сообщения:
    25
    Нужны все характеристики, каждая в новой колонке
     

    Вложения:

  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    11.287
    Вас понял, нужно время (думаю, 2-3 дня, не обещаю).
     

Поделиться этой страницей