Как парсить внутри границы, вложенные границы?

Тема в разделе "Решение различных задач по парсингу", создана пользователем jozess, 9 ноя 2015.

  1. jozess

    jozess Member Пользователи

    Регистрация:
    19 дек 2010
    Сообщения:
    122
    Хочу Спарсить "Обычной границей парсинга 1" кусок текста.

    Затем из этой "Обычной границей парсинга 1" - спарсить обычную границу а не повторяющеюся. Долго искал на форуме, не нашел. Как сделать, заранее спасибо.
     
  2. J!Life

    J!Life Модератор Команда форума Модератор

    Регистрация:
    6 дек 2013
    Сообщения:
    83
    О_о какие то замысловатые действия
    Не легче указать одну границу парсинга, а затем функцией поиска замены вырезать из нее нужную часть?
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Используйте динамические границы, в версии Ultimate вызывается сочетанием клавишь ctrl+e
     
  4. kuzichev

    kuzichev New Member Пользователи

    Регистрация:
    14 ноя 2015
    Сообщения:
    4
    Я не уверен, но скорее вопрос тот-же....

    И так как думаю что это одна из самых простых функций и самая востребованная, то врядли нужны максимальная версия программы.

    Суть то какая...
    Мы берем страницу сайта, и откровенно нужная часть в коде занимает 1/10 часть и если это +- современный сайт, то определяется именно она легко. Мы парсим именно эту часть и далее все интересующие нас элементы, как то имя, артикль, параметры берем именно из этого куска, так как в рамках него обычно проще находить нужные значения, делаю так всегда в самописных парсерах, это дает намного более предсказуемый результат, даже если у сайта поменялась структура.

    Почему так удобнее, как правило с этой части проще брать скажем фото, все таки картинок на сайте море, то в основной части url именно фото товаров и только, на ряде сайтов теже h1 использованы иногда бездумно, но в основной части как правило именно первый h1 нужный...
     
    Последнее редактирование: 14 ноя 2015
  5. J!Life

    J!Life Модератор Команда форума Модератор

    Регистрация:
    6 дек 2013
    Сообщения:
    83
    Не важно современный сайт или нет, иногда проще настраивать сайты 2000х годов, нежели новые на аяксах, подгрузках, с использованием JS во время загрузки кода.

    По поводу того что легче взять кусок страницы и искать в нем нужные значения - не имеет значения, вы только все усложняете.
    При настройке каждой границы можно выбрать номер попавшегося тега, например
    h1 в коде встречается 3 раза
    Вы либо задаете начало границы <h1 и указываете что нужно брать именно второй тег h1 на странице
    Либо указываете начало немного сложнее - не просто <h1, а захватив часть кода, стоящую перед этим тегом, что позволит более точнее парсеру определить что парсить.

    При парсинге на php (например) конечно же легче засунуть участок кода в 1кб в переменную и работать с ней, нежели распашивать все 120кб.
     
  6. kuzichev

    kuzichev New Member Пользователи

    Регистрация:
    14 ноя 2015
    Сообщения:
    4
    Вы знаете есть хорошее число сайтов где положение НУЖНОГО h1 может меняться от ряда условий, это может быть потому что именно в товаре этого раздела есть реклама, а может потому что на этих страницах есть какие то дополнительные элементы, как то отзывы или новости. А может быть именно в этом разделе наоборот h1 дополнили чем-то, чтобы было выразительнее, но сути при этом не поменялось, это нужный параметр и именно этот..

    И теже проблемы захватом большей части кода, на вскидку сейчас много сайтов где есть закладки, скажем первая информация, вторая технические параметры, третья отзывы, четвертая - возможные файлы скачивания, и вроде все ясно где начало, но если одной из вкладок нет, то и начало может меняться...

    Ну в целом не суть ;)

    Я понял что такого функционала нет, на мой взгляд просто автоматизация будет менее стабильна, потому что Вы сами верно сказали с куском работать всегда стабильнее, как грубый пример-сравнение искать в энциклопедии информацию о дирижабле можно ПО ВСЕЙ энциклопедии, можно в разделе на букву Д, а можно в куске -Дирижабль, и именно там взять и высоту и размеры и скорость, а не шерстить эти параметры автомобилей, самолетов и пароходов

    Но выходы есть... ;)
     

Поделиться этой страницей