Парсинг картинок с Алиэкспресс

Тема в разделе "Решение различных задач по парсингу", создана пользователем Yuliko, 4 июн 2014.

  1. Yuliko

    Yuliko New Member Пользователи

    Регистрация:
    3 мар 2013
    Сообщения:
    46
    Здравствуйте! Давно не пользовалась СD и была, с одной стороны, приятно, а с другой, не очень, удивлена грандиозными изменениями, произошедшими в программе. Мое удивление со знаком минус было связано с тем, что все старые проекты пришлось изменять и причем довольно серьезно. Вроде бы со всем разобралась, но вот появилась проблема с картинками. Может, кто-нибудь подскажет, как лучше сделать. Ссылки на картинки имеют вид: Ссылки недоступны для гостей

    Ссылки недоступны для гостей

    где 1749908609 ID продукта.

    Картинок парсится много лишних - с другим ID. Отсюда вопрос: как ограничить парсинг лишь картинками, включающими ID конкретного продукта (он есть на странице продукта отдельно)? И еще - как убрать дубли ссылок на одну и ту же картинку?
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Каюсь, но, к этим изменениям надо было прийти. Если хотите использовать старую версию, можете скачать ее тут Ссылки недоступны для гостей (логин и пароль вы получали при покупке)

    Как я понял, вы парсите все картинки, которые есть на странице товара, повторяющимися границами? Если да, то нужно ограничить поиск повторяющихся границ парсинга в пределах заданной обычной в "настройка повторяющихся границ ctrl+5" (это исключит лишние картинки).

    Если нет, то скажите, что вы делаете (опишите детально), а лучше приложите файл проекта.
     
  3. Yuliko

    Yuliko New Member Пользователи

    Регистрация:
    3 мар 2013
    Сообщения:
    46
    Спасибо, лучше уж новая :mmm:. Потихоньку привыкаю. Единственное, что в новой версии несколько неудобно - то, что окно "Задать границы парсинга" видно не полностью (правая часть не видна, а насколько я помню, там нужно проставлять номер границы) - см. скрин.

    Нет, я настроила повторяющиеся границы, но дело в том, что на Али сложно предугадать - там может и вовсе не быть фото на некоторых товарах, а может быть и куча лишнего, поэтому и хочу, чтобы ограничение было по ID.

    Сейчас вроде бы удалось от дублей избавиться, но вылезла другая проблема - не парсится часть документа, при этом с точно такими же настройками другой кусок парсится (в проекте Фактура и Размер сделаны аналогично Материалу, по крайней мере, я не увидела существенных отличий, но первые два не парсятся, а с последним все нормально).

    Файл проекта прилагаю
     

    Вложения:

    • cd (Copy).jpg
      cd (Copy).jpg
      Размер файла:
      27,4 КБ
      Просмотров:
      48
    • Project_ali.cdp
      Размер файла:
      31,9 КБ
      Просмотров:
      7
    Последнее редактирование: 4 июн 2014
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    У вас в системе используются увеличенные объекты. Windows нормально не умеет все это увеличивать, для этого: меню - файл - высота панелей (подберите нужную высоту).
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Посмотрел ваш проект - как-то очень все неоднозначно и запутано, уж простите, сложно вникнуть: какие именно картинки нужны. Можете, пожалуйста, объяснить словами или показать на скриншоте, какие именно картинки вам нужно брать со страницы?
     
  6. Yuliko

    Yuliko New Member Пользователи

    Регистрация:
    3 мар 2013
    Сообщения:
    46
    :drunk: Это у алиэкспресс так все запутанно, поэтому приходится извращаться. В Али фотки бывают в разных местах и хотелось бы собрать картинки под основной фотографией (скрин 2), а если здесь нет, то - справа от основной фотки (скрин 1). И из самого описания товара (скрин 3 - внизу выделена фотография, не очень хорошо видно), но это, по-моему вообще невозможно.
     

    Вложения:

    • cd1 (Copy).jpg
      cd1 (Copy).jpg
      Размер файла:
      23,1 КБ
      Просмотров:
      50
    • cd2 (Copy).jpg
      cd2 (Copy).jpg
      Размер файла:
      17,7 КБ
      Просмотров:
      50
    • cd3 (Copy).jpg
      cd3 (Copy).jpg
      Размер файла:
      11,4 КБ
      Просмотров:
      50
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Не подумайте ничего нехорошего, но тут часок надо поразбираться, потестировать, изучить сайт. Этим должен заниматься, скажем, Skype Kagorec. Обратитесь к нему, он за умеренную плату вам сделает. Простите, но я сейчас не имею на это времени...
    Может кто еще тут поможет...
    PS: Если будет конкретный вопрос, где вы затрудняетесь - с радостью помогу.
     
  8. Yuliko

    Yuliko New Member Пользователи

    Регистрация:
    3 мар 2013
    Сообщения:
    46
    И на том спасибо )))
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Тут сложно просто сразу все сообразить, но если постепенно, то у вас должно получиться. Основная идея, как я и подсказал - ограничение области поиска повторяющихся границ обычной границей парсинга.

    По умолчанию - повторяющаяся граница выполняет поиск данных во всем коде WEB-документа. Вы можете сделать так, чтобы она искала данные ТОЛЬКО В УКАЗАННЫХ ЧАСТЯХ документа, как я и сказал выше:
    - Задать обычную границу парсинга для нужной части кода (где искать картинки)
    - В ctrl+5 выбрать номер этой границы из соответствующего выпадающего списка, который располагается правее каждой повторяющейся границы в этом окне (ctrl+5).

    Надеюсь, у вас все получится! С уважением к вам, Сергей.
     
  10. Yuliko

    Yuliko New Member Пользователи

    Регистрация:
    3 мар 2013
    Сообщения:
    46
    Не помогло (((.
     
  11. Yuliko

    Yuliko New Member Пользователи

    Регистрация:
    3 мар 2013
    Сообщения:
    46
    Спасибо, Сергей! Пытаюсь потихонечку ))), только у меня почему-то повторяющиеся границы работают только при отключении галочки в обычной границе парсинга и никак не реагирует на ограничение (включены они, выключены - не имеет значения). Буду дальше ковырять - может, чего и получится.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Покажите на скриншоте, какую высоту панелей вы выбрали, если можно. Спасибо!
     
  13. Yuliko

    Yuliko New Member Пользователи

    Регистрация:
    3 мар 2013
    Сообщения:
    46
    Выбирала разные варианты - все равно не влезает...

    Прошу прощения, что так поздно отвечаю - не видела сообщения
     

    Вложения:

  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это у вас в экран не влезает))). В панели управления системы поставьте 100% увеличение шрифтов или используйте экран с большим разрешением.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     

Поделиться этой страницей