Парсинг контента с макросом <CD_AUTO!>

Тема в разделе "Решение различных задач по парсингу", создана пользователем AlexKoho, 9 мар 2017.

  1. AlexKoho

    AlexKoho New Member Пользователи

    Регистрация:
    9 мар 2017
    Сообщения:
    9
    Здравствуйте, такой вот у меня проект получился:
    2017-03-09_20-41-36.png
    1. Вопрос: адрес к картинкам получается такой <img src="images/2webgo.jpg"> а так как у меня контент еще упаковывается в папки по ключевому слову, надо перед "images" добавить "../" - как это сделать?
    Задать префикс - почему то не срабатывает:
    2017-03-09_20-46-52.png
    2. Вопрос: Почему то не загружает картинки с донора? Потому что путь к картинке относительный? Как это можно учитывать и все таки забирать картинки?
    2017-03-09_20-50-04.png
    3. Вопрос: <CD_AUTO!> в целом отрабатывает хорошо (выдергивает только статьи без мусора), но иногда, вот например в этом конкретном случае - что ему не дает дернуть контент(не видит статью)? Хотелось бы понимать, в опциях макроса <CD_AUTO!> только три строчки:
    class="entry"
    id="news-id-
    id="article-text"
    и далее "примите к сведению, если отключить функцию поиска div (слоя).....будут использованы другие алгоритмы;" - другие алгоритмы которые я создам или еще есть другие встроенные и как можно их корректировать (можно ли)?
    2017-03-09_20-56-47.png
    4. Вопрос: Последняя ссылка в моем проекте(3-я)- там по идее должно было все вырезаться, т.к. окружен макросом [HTMTOTXT:br,p,h1,h2,h3,h4,h5,h6,div,strong,b,ul,ol,li,i,table,tr,td,th,lable,sup,span,iframe,hr,img,src], я даже дополнительно пробовал еще окружить [DELTAGS:script], но программа почему то в этом конкретном случае все равно упорно парсит вcю эту портянку js
    2017-03-09_21-09-06.png

    Примеры я сделал выборочно, понятно что мне надо НЕ эти конкретные страницы спарсить которые в примерах, а разобраться в настройках, чтобы избежать в дальнейшем этих граблей при парсинге тысяч страниц.
    Файл Проект прикрепил (Загрузить фал = 2017-03-09_21-22-52.png не получается (35Kb - может поэтому?) ,поэтому даю ссылку на ЯД: Ссылки недоступны для гостей
    Программу купил недавно, третий день разбираюсь, может еще не понимаю/не вижу чего то = тому кто может подсказать - огромное спасибо!
     
    Последнее редактирование: 9 мар 2017
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Файл проекта не прикреплен. Картинки не прикреплены. Не могу помочь.
     
  3. AlexKoho

    AlexKoho New Member Пользователи

    Регистрация:
    9 мар 2017
    Сообщения:
    9
    Здравствуйте, картинки исправил, а вот проект не получается загрузить - Пишет: загружаемый файл пуст
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Файл проекта нормально загружается на форум. Если у вас с этим проблемы, уж куда-нибудь его прикрепите. Поверьте, вытягивать необходимую информацию - дело неблагодарное.
     
  5. AlexKoho

    AlexKoho New Member Пользователи

    Регистрация:
    9 мар 2017
    Сообщения:
    9
    Да я бы с удовольствием загрузил бы его, но я же пишу: при попытке загруить файл = Пишет: загружаемый файл пуст,
    я даже в первом посте прикрепил скрин, проект сохраненный на ЯндексДиске: Ссылки недоступны для гостей
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ok.

    Постараюсь к завтрашнему вечеру изучить вопрос.

    Отпишусь тут.
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Вы загружаете с защищенного диска С, переместите файл в папку, которая без uac (сОЗДАЙТЕ ТИПА ПАПКУ НА ДИСКЕ с И СКОПИРУЙТЕ ТУДА ФАЙЛ, ЕСЛИ НЕ ЗАПРОСИТ ПОДТВЕРЖДЕНИЕ... ЗНАЧИТ ВСЕ НОРМАЛЬНО)
    Переприкрепил файл
     

    Вложения:

    • Question.cdp
      Размер файла:
      34,3 КБ
      Просмотров:
      9
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте еще раз.

    Сделал доработку:
    Скачайте и установите доработанную версию программы (в программе: главное меню - файл - центр обновлений -> кнопка "обновить программу/скачать обновленную сборку")!

    Ответ на 1 и 2 вопросы:
    2017-03-10_11-13-58.png

    Код:
     src="| src="http://site.ru/1/
    Ответ на 3 вопрос: Это страница товара, там как таковой статьи в коде документа нет, поэтому макрос <CD_AUTO!> его там и не находит!

    Ответ на 4 вопрос: Макрос [HTMTOTXT] удаляет скрипты, которые содержатся в тегах <script>...</script>. Тот код, что вы показали не является такими скриптами. Нужно переработать алгоритм <CD_AUTO!> чтобы он автоматически фильтровал подобные коды, но это, думаю, будет не скоро!

    С уважением к вам, Сергей...
     
  9. AlexKoho

    AlexKoho New Member Пользователи

    Регистрация:
    9 мар 2017
    Сообщения:
    9
    Спасибо!
     
    Root нравится это.
  10. AlexKoho

    AlexKoho New Member Пользователи

    Регистрация:
    9 мар 2017
    Сообщения:
    9
    Добрый день, можно ли в настройках сделать так, чтобы в спарсенном контенте внутри тега <img> повырезать все атрибуты, кроме src="..." ?

    Макросом замены [REPLACE (<img {skip}>|) - можно вырезать все содержимое тега <img>, но ведь тогда и вырежется значение src="..." ? А оно формируется макросом <CD_AUTO!> при парсинге.
    |
     
    Последнее редактирование: 11 мар 2017
  11. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    [REPLACE(src="{get}"|<img src="{get}"/>)]<CD_GRAN_1!>[/REPLACE]

    До:

    <img width="96" height="96" src="styles/default/xenforo/avatars/avatar_male_m.png" alt="AlexKoho">
    После:
    <img src="styles/default/xenforo/avatars/avatar_male_m.png"/>
     
  12. AlexKoho

    AlexKoho New Member Пользователи

    Регистрация:
    9 мар 2017
    Сообщения:
    9
    :confused::confused::confused:
    Тогда получается вот что: <img <img src="images/fish-and-aquaria.jpg"/> border="1" alt="Click to learn about Aquarium Plants" width="125" height="85" /> = тег в теге и все атрибуты далее паровозом... естественно браузер этот хаос открывает как картинку и далее набор атрибутов текстом.... не работает этот вариант
     
  13. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    Странно
    aaa.png
     
  14. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    А если так?
    [REPLACE(<img{skip}src="{get}"{skip}>|<img src="{get}"/>)]<CD_GRAN_1!>[/REPLACE]
     
  15. AlexKoho

    AlexKoho New Member Пользователи

    Регистрация:
    9 мар 2017
    Сообщения:
    9
    Опять незадача:confused::confused:
    картинок в документе много - а {get} он берет у первой картинки и соответственно срабатывает ТОЛЬКО на первой картинке, остальные без изменений(
    И еще: img{skip}src когда между img и src просто один пробел(<img src="...) - не работает (по всей видимости в{skip} обязательно что-то должно быть, пробел не учитывает!
    Сам тоже пытаюсь решить эту задачу - найду решение - отпишусь!
     
    Последнее редактирование: 13 мар 2017
  16. napserious

    napserious Well-Known Member Пользователи Активирован

    Регистрация:
    16 окт 2015
    Сообщения:
    324
    [REPLACE(src="{get}"|<img src="{multiget}"/>)]<CD_GRAN_1!>[/REPLACE]
    А вот с пробелом незадача
     
    kagorec нравится это.
  17. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    ловим регулярным выражением и вставляем пойманное совпадение в свой тег такой же.
    PHP:
    re:<img[^<>]+src="([^<>"]+)"[^<>]+>|<img src="$1" />
     
    napserious нравится это.
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2017-03-13_17-00-04.png

    С уважением к вам, Сергей.
     
    invisible нравится это.

Поделиться этой страницей