Парсинг нескольких изображений

Тема в разделе "Решение проблем с использованием программы", создана пользователем Duck83, 13 окт 2017.

  1. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Подскажите пожалуйста, как парсить сразу несколько изображений, например, мини галерею и т.п., с условием, что на разных страницах, изображений разное количество - где-то 2, где-то 3-5?
     
  2. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    Ссылки недоступны для гостей гляньте на оф. справке. Там есть ответ на ваш вопрос. Ссылки недоступны для гостей Ссылки недоступны для гостей
     
  3. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте
    Используйте повторяющиеся границы и макросы для работы с картинками или документами
     
  4. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Спасибо, со всем разобрался.
     
    Kreol нравится это.
  5. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Подскажите пожалуйста, как спарсить контент страницы из поля статьи, где вперемешку присутствуют изображения, таблицы (без привязанных к css стилям). Какой метод выбрать в этом случае, чтобы можно было все это дело использовать как готовую с татью с изображениями и базовой html структурой?
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Удалить лишние HTML-теги макросом [HTMTOTXT]:
    Ссылки недоступны для гостей Преобразование html-кода в текст ([HTMTOTXT:][/HTMTOTXT])
     
  7. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Хотелось бы сохранить таблицы и списки, к тому же, как спарсить картинки, которые идут вперемешку с текстом? Обрамлять в <NIMG>?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Сохраните нужные теги с помощью макроса [HTMTOTXT].

    Картинки из текста (из тегов img) загружаются автоматически.
     
    Последнее редактирование: 26 окт 2017
  9. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Воспользовался вашим советом. При парсинге задал шаблон так: [HTMTOTXT:img,p,li,ul,h3,br]<CD_GRAN_2!>[/HTMTOTXT] - выделив необходимые теги, которые нужно оставить. Однако, на странице присутствует куча рекламы, в том числе и директ, поэтому в середине текста куча нежелательно шлака, который почему-то также попал в конечный результат. Есть ли макрос позволяющий решить эту проблему и поддерживает ли он вложенность, поскольку все эти операции должны происходить в рамках одной границы?
    Там реклама в определнных дивах стоит, не подскажите, как можно удалить их содержание вместе с ними через регулярные выражения? Не знаю как задать правильную формулу: <div id="reklama">{skip}</div>|
    Понятное дело, что такая конфигурация не помогает.
     
    Последнее редактирование: 26 окт 2017
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    <div id="reklama">{skip}</div>| - правильно сделана. Удалит все, что между <div id="reklama"> и </div>. Не вижу проблемы.
     
  11. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Проблема в том, что там большая вложенность разных дивов. И, как в этом случае регулярке понять, до какого конца div вырезать?
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Все есть в хелпе. Нужно читать хелп.

    Ссылки недоступны для гостей
     
  13. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Спасибо! Нашел, то что мне нужно было. Сделал необходимую формулу (<div id="yandex_ad"{AUTO}div|[МОЙ_ТЕКСТ]), однако, по какой-то причине, вырезаются не все дивы в контенте, а только первый (их на странице от 2 до 5). Имена у них одинаковые, но формула почему-то не работает с ними. Как можно усовершенствовать формулу, чтобы вырезались все указанные дивы на странице?
    Я извиняюсь за свои расспросы, просто, хелп очень большой и порой сложно найти там сразу то, что ищешь.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Просто размножить правило поиск-замены.

    2017-10-27_15-01-20.png
     
  15. Duck83

    Duck83 Member Пользователи

    Регистрация:
    3 окт 2017
    Сообщения:
    76
    Город:
    Симферополь
    Спасибо, Все работает!
     
    Root нравится это.

Поделиться этой страницей