Парсится только 7 ссылок из ПГ - что я делаю не так?

Тема в разделе "Повторяющиеся границы парсинга", создана пользователем Avem, 5 янв 2021.

  1. Avem

    Avem Member Пользователи

    Регистрация:
    30 дек 2020
    Сообщения:
    35
    Здравствуйте.

    Я не давно пробрёл и в данный момент только изучаю CD. У меня возникла пара вопросов. Просмотрел видео про обычные и повторяющиеся границы парсинга. Также просмотрел видео про парсинг json. Сделал на простом примере скачивания фоток - всё получилось. Сделал на другом, посложнее - парсится только 7 ссылок из 20 - это первый вопрос. Второй вопрос сложнее, я не знаю, можно ли это воплотить.

    Итак, первый вопрос: есть сайт по недвижимости. Там надо помимо описания скачать картинки. Подведя к картинке жму f4 и выделяю границу этой группы картинок. Затем создаю ПГ и выбираю признаки картинок задав границы и выбрав ограничение по выше-обозначенной группе. В результате должно спарсится около 20 ссылок картинок а парсится всего 7.
    Это первый вопрос - почему только 7 спарсилось?

    Второй вопрос. В коде стрвницы есть картинки с низким,средним и высоким разрешением. Они выводятся в json но не получается по аналогии с видео (Ссылки недоступны для гостей) вывести дерево значений. Там в JSON около 330000 знаков - может быть поэтому. Знаю что большие фотки там но дерево в редакторе замены не строится. Картинки которые мне нужны имеют "1536" в имени файла а также все слэши имеют \ перед ними. Как мне быть с огромным размером этого JSONa? Может быть уменьшить както можно путем удаления или замены части ненужных значений? Хотя это наверное усложнит задание в разы.

    Прикрепляю файл проекта. Если время найдется направьте пожалуйста в правильную сторону как выкачать все картинки с 1536 в имени файла и как разобраться с json-ом?

    Благодарю за внимание и помощь.
     

    Вложения:

    • listing.cdp
      Размер файла:
      365,2 КБ
      Просмотров:
      1
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Перезадал начало повторяющейся границы парсинга (удалил пробел перед src), теперь парсятся все изображения.

    Картинок в проекте с 1536 не нашел.
     

    Вложения:

    • listing_12.cdp
      Размер файла:
      365,3 КБ
      Просмотров:
      3
  3. Avem

    Avem Member Пользователи

    Регистрация:
    30 дек 2020
    Сообщения:
    35
    Здравствуйте,
    Благодарю вас за помощь. Возможно я не правильно задал вопрос. В коде содержатся файлы у которых в имени присутствует 1536 - это размер ширины фотки большого размера - единственный признак который я мог найти к чему привязаться. Приделываю снимок с окна программы чтобы показать как я его нашел в коде. Там около двух десятков вхождений с этим значением находится. Я пытаюсь спарсить всех их. Выглядит как JSON но у меня не строится дерево значений. Я проверил JSON в онлайн тестере на валидность и пишет что код является валидным json-ом.
    Может быть у вас есть идеи как спарсить эти изображения?

    [​IMG]
     
    Последнее редактирование: 5 янв 2021
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей
     

    Вложения:

  5. Avem

    Avem Member Пользователи

    Регистрация:
    30 дек 2020
    Сообщения:
    35
    Большое вам спасибо. Буду разбираться с матерьялом.
     
    Root нравится это.
  6. Avem

    Avem Member Пользователи

    Регистрация:
    30 дек 2020
    Сообщения:
    35
    Здравствуйте. Ваше решение работает но возникла проблема когда я в настройках повторяющегося цыкла обернул макрос CFILTER макросом скачивания DOWNLOADFILE.
    Тоесть когда предпросмотр сделал то началось скачивание. Я остановил нажав на кнопку пауза в верхней панели инструментов т.к там около 270 картинок. Зашел в настройку повторяющихся границ парсинга и указал MAX 3 в числе циклов чтобы предпросмотреть только 3 результата. В результате ничего не скачалось. Изображение отчета прилагаю.
    Я пытался удалть кэш (контрол пробел) но результат тот-же. Подскажите пожалуйста что я не так сделал?
    Пытаюсь посмотреть скачанные изображения. В папке c:/content/ пусто


    [​IMG]
     

    Вложения:

  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Потому, что в первых трех циклах повторяющейся границы (вы ограничили число циклов) не содержится вхождения 1536.
     
  8. Avem

    Avem Member Пользователи

    Регистрация:
    30 дек 2020
    Сообщения:
    35
    Понял. Благодарю за ответ. В этой ситуации, есть ли способ пред-просмотреть только часть картинок чтобы не ждать все 270 результатов?
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Поставьте ограничение для циклов, скажем, 33.
     
    Avem нравится это.

Поделиться этой страницей