Как удалить теги картинок, которые не спарсились?

Тема в разделе "Разное", создана пользователем Mr.Che, 29 янв 2012.

  1. Mr.Che

    Mr.Che New Member Пользователи

    Регистрация:
    29 янв 2012
    Сообщения:
    3
    Спарсил сайт, в каждой новости есть картинки. Но не все картинки загрузились (линк битый, достигнут таймаут и тд.).

    Можно ли как-то оставить в проекте только те документы, картинки к которым были закачены и лежат в папке?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте!
    На панели инструментов: "обработка и импорт в КМС" - "массовая обработка файлов" - вкладка "чистка документов 2" - кнопка "удалить теги изображений, которых нет на диске".
    Проблема решена?
     
  3. Mr.Che

    Mr.Che New Member Пользователи

    Регистрация:
    29 янв 2012
    Сообщения:
    3
    Здравствуйте,
    почти решена.

    Как удалить именно документы, в которых удалятся теги картинок? То есть мне новости без картинок не нужны и от них я хочу избавится и соответственно оставить в проекте только те документы, изображения к которым есть на диске.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вас понял.
    Планирую через пару дней выпустить обновление в котором будет фильтрация документов без картинок (при парсинге).
     
  5. Mr.Che

    Mr.Che New Member Пользователи

    Регистрация:
    29 янв 2012
    Сообщения:
    3
    Спасибо, жду с нетерпением.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Content Downloader версии 28.14 (30.01.2012):

    - Добавлены опции: "не сохранять документы с битыми картинками", "не сохранять документы без картинок" (Вкладка "контент" - кнопка "дополнительно");
    - В редакторе CSV файлов теперь можно загружать по нескольку картинок к каждому товару.
     
  7. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Content Downloader отличная программа, а у вас невероятная работоспособность. Но вот, к этой новинке так и напрашивается ещё небольшое улучшение. Если бы сделать так, чтобы не загружались документы по определённым признакам. Например, по слову "Товар отсутствует". Такое часто бывает при парсинге из партнёрского магазина,- часть товаров есть, а части нет. Приходится изощряться, как избавиться от лишнего. Но, в некоторых магазинах есть признаки,-

    - либо отсутствует поле цена,
    - либо цена не проставлена, что в принципе тоже будет означать пустое поле
    - либо стоит надпись (или картинка с одним и тем же именем) "Товар отсутствует"
    - могут быть и другие варианты, не припомню уже

    Это так, просто к сведению. Думаю многие сталкивались с необходимостью вычищать проект из-за отсутствия товара.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Спасибо на добром слове!
    На панели инструментов смотрите "дополнительные настройки границ парсинга". Там в каждой вкладке есть опция "обязательна" (если граница (например, с ценой) окажется пустой и у нее будет включена опция "обязательна", документ отфильтруется/не сохранится).
     

Поделиться этой страницей