Битые картинки на сайте

Тема в разделе "Решение различных задач по парсингу", создана пользователем qazaq1, 30 мар 2012.

Статус темы:
Закрыта.
  1. qazaq1

    qazaq1 New Member Пользователи

    Регистрация:
    12 фев 2012
    Сообщения:
    11
    Коллеги, добрый день. Сайт, с которого парсю - немного кривоват, встречаются вот такие вещи

    "src="http://images.wwatermann.org/kartinku/2434img.

    А у меня повторяющиеся границы заканчиваются после букв .jpg

    Т.е по идее это должно выглядеть вот так (и все остальные парсенные картинки выглядят так)

    "src="http://images.wwatermann.org/kartinku/2434img.jpg

    Как сказать программе, чтоб она не цепляла пути к картинкам "без расширений"?

    В шаблоне вывода у меня <CD_CYCLE_GRAN_ALL!>

    Спасибо!


    ЗЫ. Вот так выглядит итог в csv файле. Вторая строчка - битая картинка, первая - та что нормально парсится

    /kartinki/2434img.jpg
    /kartinki/http://images.wwatermann.org/kartinku/2434img.
     
    Последнее редактирование: 30 мар 2012
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Решение данной "проблемы", а если быть точнее, ситуации, существует. оно предусмотрено в Content Downloader-е. Вам надо было бы посмотреть уроки, которые рассказывают Ссылки недоступны для гостей. Если внимательно посмотрите урок, увидите, что принцип загрузки зависит от настроек, которые задаются во вкладке "Контент",- "Картинки". Там есть возможность настроить загрузку картинок без расширений 1) случай, при котором картинки на сервере выводятся скриптом. Но, существует и 2) вторая возможность,- прописать нужное расширение к границе парсинга.

    В варианте с <CD_CYCLE_GRAN_ALL!> это сложнее, но можно сделать, если картинки подгружаются отдельно, вы ведь сначала настраивали <CD_CYCLE_GRAN_1!> и <CD_CYCLE_GRAN_2!>... Один настройте на картинки с расширением, второй без расширений, и в "Ссылки недоступны для гостей" добавьте в конец, нужное расширение .jpg. Либо, то же самое можно сделать с помощью "поиска-замены". Чтобы сказать конкртнее, нужны реальные ссылки сайта.
     
    Последнее редактирование: 30 мар 2012
  3. qazaq1

    qazaq1 New Member Пользователи

    Регистрация:
    12 фев 2012
    Сообщения:
    11
    Спасибо! но тут какой момент - добавить jpg я б и сам сообразил, но ссылки вида

    "src="http://images.wwatermann.org/kartinku/2434img.

    вообще не нужны, там даже если jpg добавить - картинки не будет.
    Может настроить какой то фильтр можно? типа нет jpg - картинка не сохраняется...
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    "

    "Дплнительно" - не сохранять документы с битыми картинками
     
  5. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Не могу ничего сказать, по представленным ссылкам у меня вообще ничего не загружается.
    Что касается фильтров, то их можно настроить... впрочем, уже ответили чуть выше
     
  6. qazaq1

    qazaq1 New Member Пользователи

    Регистрация:
    12 фев 2012
    Сообщения:
    11
    Спасибо!

    1. Не загружать документы с битыми картинками - не загружается ПОЛНОСТЬЮ страница, неохота ее терять из за битой картинки

    2. Более менее приемлем вариант с галкой в "загружать изображения, генерируемые скриптом" - к битой картинке приставляется jpg, но по факту ее не будет и в файле...но пусть лучше будет битая картинка в итоге, чем не будет документа.
     
  7. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Вот тем Content Downloader и отличается от других программ, что предоставляет возможность находить разнообразные формы решений. И тут, только вам дано знать, что в реальности вы должны получить на выходе. Чем больше будете экспериментировать, составлять варианты компоновки шаблонов парсинга, тем лучшие результаты получите. Тут нет пределов для нахождения разных вариаций решения. Я вот, единственное только не понял, почему приведённые вами ссылки нерабочие?
     
  8. qazaq1

    qazaq1 New Member Пользователи

    Регистрация:
    12 фев 2012
    Сообщения:
    11
    Почему нерабочие - это неизвестно ))) такие вот криворукие админы у того сайта, или просто глюк
     
  9. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Не знаю, что там ценного на том сайте, но я бы не стал возиться с гнилым сайтом, просто нашёл бы другой. Благо интернет баллллллшой
     
  10. lelik300030

    lelik300030 New Member Пользователи

    Регистрация:
    3 июн 2015
    Сообщения:
    1
    Да, и по сегодняшний день в интернете присутствуют сайты криворукосозданные. )))
     
Статус темы:
Закрыта.

Поделиться этой страницей