Парсинг фото и текста в одну папку

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем tortxp, 19 ноя 2015.

  1. tortxp

    tortxp New Member Пользователи

    Регистрация:
    19 ноя 2015
    Сообщения:
    9
    Не могу решить такую проблему.
    Нужно чтобы парсил по такой структуре

    .../Лягушка1/article.txt
    .../Лягушка1/image1.png
    .../Лягушка1/image2.png

    т.е в одну папку и фото и текст. И главное чтобы папку называл именем "название статьи"

    При парсинге сотен страниц, название папки текста и фото генерировалось уникальное (либо название статьи, если нельзя, то для каждой страницы свое название)

    --------------

    либо такой вариант

    ...Лугушка1.txt
    .../Лягушка1/image1.png
    .../Лягушка1/image2.png

    т.е название файла с текстом и название папки было одинаковое.

    При парсинге сотен страниц, название файл текста и название папки генерировалось уникальное.

    Кто подскажет? Спасибо
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    В редактор шаблон вывода (ctrl+2) вставить:
    Где вместо имя_папки может быть граница парсинга с названием статьи, например <CD_GRAN_1!>

    С уважением к вам, Сергей...
     
  3. tortxp

    tortxp New Member Пользователи

    Регистрация:
    19 ноя 2015
    Сообщения:
    9
    Спасибо.

    Теперь возникла проблема удаления HTMl тегов из текста.

    Сделал вот такую конструкцию:
    [HTMTOTXT:table,strong,p]<CD_GRAN_1!>[/HTMTOTXT]
    [DOCNAME][INT_ID]\article_[INT_ID].txt[/DOCNAME]
    [IMAGESPATH][INT_ID][/IMAGESPATH]

    Лишние теги удаляет теперь, но фото не парсит.

    Как сделать и удаление тегов и сохранение фото?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    [HTMTOTXT:table,strong,p,img]<CD_GRAN_1!>[/HTMTOTXT]
    [DOCNAME][INT_ID]\article_[INT_ID].txt[/DOCNAME]
    [IMAGESPATH][INT_ID][/IMAGESPATH]
     

Поделиться этой страницей