Парсинг HTML таблиц

Discussion in 'Решение различных задач по парсингу' started by bamser, Nov 8, 2014.

  1. bamser

    bamser New Member Пользователи

    Joined:
    Nov 8, 2014
    Messages:
    13
    Здравствуйте.
    Делаю по этому видео:
    Ссылки недоступны для гостей
    все идет хорошо до заключения в [VERTTABLE][/VERTTABLE]
    все пишется в одну ячейку((
    Hidden Content:
    **Hidden Content: To see this hidden content your post count must be 1 or greater.**
     
  2. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Здравствуйте.

    Выложите сюда ваш файл проекта (меню - файл - сохранить проект).
     
  3. bamser

    bamser New Member Пользователи

    Joined:
    Nov 8, 2014
    Messages:
    13
    Здравствуйте. Вложил проект
     

    Attached Files:

  4. Kreol

    Kreol Модератор Staff Member Модератор

    Joined:
    Jan 6, 2013
    Messages:
    2,666
    У вас очень нестандартная таблица, [VERTTABLE] как и [HORIZTABLE] предусматривают правильную html таблицу с открывающими и закрывающими тегами. У вас же все не так просто. К примеру
    <td>Тип лампы</td>
    <td>UHM™<td>
    Поэтому в данном случае лучше использовать [DYNAMICVALUES]
    Изучайте проект
     

    Attached Files:

  5. bamser

    bamser New Member Пользователи

    Joined:
    Nov 8, 2014
    Messages:
    13
    Здравствуйте....мне он не дает ничего посмотреть...у меня начальная версия....пишет:
    Простите, но использование макроса [DYNAMICVALUES] возможно только на ULTIMATE-версиях программы
    .........
    Действительно посмотрел вторая колонка нет закрывающего тега </td>
    Ну вроде как описание выкачивает...а характеристики попробую с других сайтов надергать....
    .............
    Вопрос возник...вот я спарсил что мне нужно с сайта...а потом решил добавить колонку...ну не знаю...наличие...мне заново весь сайт парсить? (не хранит программа нигде спарсенные страницы?)...а если например новые страницы на сайте добавились?...каждый раз заново выкачивать? (но про новые нашел там можно url в файл сохранить и сканер пропустит уже выкачанные)...а вот если данные на странице поменялись?...как обновления программа может закачать или заново выкачивать все поля?
     
  6. Kreol

    Kreol Модератор Staff Member Модератор

    Joined:
    Jan 6, 2013
    Messages:
    2,666
    а почему раньше не сказали?)
    Правильно пишет, данные макросы можно использовать только в ULTIMATE-версиях программы.
    Как быть в таком случае. Я бы делал так:
    забираете весь блок с характеристиками, потом в екселе удаляете дубликаты характеристик и получаете их 50-500, формируете динамические границы и парсите.
     
  7. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Здравствуйте.

    Руководствуясь логикой не сложно понять, что даже, чтобы проверить изменение данных на странице, ее нужно парсить.
     
  8. bamser

    bamser New Member Пользователи

    Joined:
    Nov 8, 2014
    Messages:
    13
    ......
    Не ругайтесь я просто спросил...может в программе есть механизм....можно же не парсить а по весу или по дате изменения посмотреть...а потом парсить))
     
  9. bamser

    bamser New Member Пользователи

    Joined:
    Nov 8, 2014
    Messages:
    13
    не знал что это важно))

    Правильно пишет, данные макросы можно использовать только в ULTIMATE-версиях программы.
    ........
    я понимаю что правильно))

    Как быть в таком случае. Я бы делал так:
    забираете весь блок с характеристиками, потом в екселе удаляете дубликаты характеристик и получаете их 50-500, формируете динамические границы и парсите.
    .........
    ну проще будет в экселе...найти два подряд <td> и второй заменить на </td>......а вот потом....
    может ли программа Conten Downloader парсить не с сайта а из файла?...если может из какого формата?...ну и главное где кнопка Урий? :)
     
  10. Kreol

    Kreol Модератор Staff Member Модератор

    Joined:
    Jan 6, 2013
    Messages:
    2,666
    нет, проще будет правильно задать границы и спарсить характеристики для всех товаров, а потом по ним создать шаблон для парсинга
     
  11. bamser

    bamser New Member Пользователи

    Joined:
    Nov 8, 2014
    Messages:
    13
    .........
    Характеристики я спарсил....только они в таблице....а мне они нужны для каждого товара в одной ячейке в виде:
    Характеристики|Тип лампы|Энергосберегающая
    Характеристики|Форма лампы|Полуспираль
    Характеристики|Тип цоколя|E14
    Характеристики|Напряжение питания, В|220-240
    Характеристики|Частота питающей сети, Гц| 50-60
    Характеристики|Мощность, Вт|15
    Характеристики|Эквивалент лампы накаливания, Вт|75
    Характеристики|Цвет Света|Теплый белый
    Характеристики|Тип упаковки|Картон
    Характеристики|Цветовая температура, К|2700
    .........
    а Вы мне такую строчку парсинга прислали....я в ней в жизни не разберусь))) :
    [DYNAMICVALUES][REPLACE(%%%{break}###|[VALUE]:{break}^^^|[NEXTPAIR])]<CD_CYCLE_GRAN_1!>[/REPLACE][/DYNAMICVALUES]
    .........
    так что думаю в экселе проще...привести к стандартной таблице....
    а вот как?:
     

    Attached Files:

    Last edited: Nov 10, 2014
  12. Kreol

    Kreol Модератор Staff Member Модератор

    Joined:
    Jan 6, 2013
    Messages:
    2,666
    Берете вашу любую характеристику, например Характеристики я спарсил....только они в таблице....а мне они нужны для каждого товара в одной ячейке в виде:
    Характеристики|Тип лампы|Энергосберегающая
    создаете динамическую границу "Тип лампы" и так повторяете для всех.
     
  13. skyotch

    skyotch New Member Пользователи

    Joined:
    Nov 10, 2014
    Messages:
    7
    Город:
    Москва
    Спарсить "характеристики" заключенные в li теги

    Вот так завернуты характеристики, DINALICVALUES - не помогает почему-то

    <ul class="product-params_items">

    <li class="product-params_item">
    <img src="/img/null.gif" alt="" class="icon i-product_prop i-param1">
    <span class="param-name"> Alloc (Норвегия)</span>
    </li>
    <li class="product-params_item">
    <img src="/img/null.gif" alt="" class="icon i-product_prop i-param3">
    <span class="param-name"> Стильные декоры Песочный холм 3806</span>
    </li>

    </ul>

    Версия - ULTIMATE
    ПОМОГИТЕ пожалуйста
     
  14. Kreol

    Kreol Модератор Staff Member Модератор

    Joined:
    Jan 6, 2013
    Messages:
    2,666
    приведите теги к виду таблицы, либо настройте правильно [DYNAMICVALUES]
    проект посмотрите ниже на пару постов
     
  15. skyotch

    skyotch New Member Пользователи

    Joined:
    Nov 10, 2014
    Messages:
    7
    Город:
    Москва
    Не совсем понимаю, как это сотворить


    пост от "Вчера, 23:57"? если да то вот эта строчка "[DYNAMICVALUES][REPLACE(%%%{break}###|[VALUE]:{break}^^^|[NEXTPAIR])]<CD_CYCLE_GRAN_1!>[/REPLACE][/DYNAMICVALUES]" в моем случае как будет выглядеть, если не сложно, то сразу на моем примере показать
     
  16. Kreol

    Kreol Модератор Staff Member Модератор

    Joined:
    Jan 6, 2013
    Messages:
    2,666
    http://forum.sbfactory.ru/showpost.php?p=14021&postcount=4 вот тут проект, извините сейчас не имею времени, если не поможет, напишите мне в скайп. Спасибо.
    P.S. решили через глобальную поиск/замену с последующим использованием конструкции [DYNAMICVALUES]
     
    Last edited: Nov 10, 2014
  17. TomGood

    TomGood New Member Пользователи

    Joined:
    Nov 2, 2015
    Messages:
    25
    Добрый день! Помогите, пожалуйста, разобраться с парсингом таблицы Ссылки недоступны для гостей
    При использовании макроса [HORIZTABLE] не получается (смещаются ячейки). Плюс во второй таблице есть атрибут Colspan. При использовании [APPLYTABLESPANS] + [HORIZTABLE] ничего не выводится
     
  18. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Здравствуйте.

    Если можно, предоставьте пример желаемого CSV на основе указанного товара.
     
  19. TomGood

    TomGood New Member Пользователи

    Joined:
    Nov 2, 2015
    Messages:
    25
    Нужны все характеристики, каждая в новой колонке
     

    Attached Files:

  20. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    Вас понял, нужно время (думаю, 2-3 дня, не обещаю).
     

Share This Page