Игнорирование/пропуск/не скачивание картинки-заглушки (no image)

Тема в разделе "Скачивание картинок и файлов", создана пользователем Benjamin Coleman, 10 янв 2018.

  1. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Здравствуйте, господа. Поздравляю всех с прошедшими праздниками.

    В общем возникла задача спарсить очень-очень большой сайт, на котором (на разных страницах) присутствует иногда одна и та же dummy-картинка вместо товара - типа "нет фото"/изображение камеры - вот как тут на форуме знак вопроса.

    Картинок миллионы скачал вместе с данными (это я только начал), думал раздублить эти какой-нибудь программой, но что-то весь софт валится на таких обьемах. Чтож... похоже надо придумать фильтрацию на лету.

    Пока пришел в голову такой алгоритм: во время парсинга берем картинку и кидаем своему php-скрипту то возвращает нам или размер её в байтах или делает хэш, и если он совпадает с нашим условием, то не скачиваем её.

    Было бы, конечно, здорово, если бы многоуважаемый Root добавил макрос вида [duplicatepic] - и туда заносилось это самое условие (размер, например, в байтах) для такой dummy-картинки, или путь к самой картинке, если упростить для пользователя. И она бы не скачивалась, заменялась на единственную заглушку в данных. Мне кажется, это очень частая задача как на магазинах, так и других каталогах.

    Спасибо
     

    Вложения:

    • avatar_s.png
      avatar_s.png
      Размер файла:
      905 байт
      Просмотров:
      2
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    2018-01-10_15-21-58.png
     
    Benjamin Coleman и xLime нравится это.
  3. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Спасибо! Проглядел
     
    Root нравится это.
  4. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Нет, все равно не то, кажется o_O

    Названия скачиваемых файлов, конечно же, могут быть разными (привязка к товару на странице), а сам файл одинаковый. А настройка приведенная выше просто, я так понимаю, сравнивает файл по имени - и не фильтрует. Не работает это.

    Прилагаю файл проекта с несколькими ссылками, в нем часть картинок - dummy, а часть нормальная. Помогите разрешить проблему, пожалуйста.
     

    Вложения:

  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нет в вашем проекте никаких ссылок.
     
  6. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Пардон

     

    Вложения:

  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  8. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
  9. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Не удалось прикрепить шаблон в прошлом посте
     

    Вложения:

  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    2018-01-13_07-42-54.png
     
    kagorec, Benjamin Coleman и xLime нравится это.
  11. Benjamin Coleman

    Benjamin Coleman New Member Пользователи

    Регистрация:
    23 окт 2010
    Сообщения:
    152
    Спасибо! Оперативно
     

Поделиться этой страницей