Обычные границы внутри повторяющихся работают избирательно

Тема в разделе "Границы парсинга", создана пользователем evgenij, 23 сен 2019.

  1. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    На страницах есть разное количество неких блоков кода, типа <div class="rating-block"</div> - на одном урл такой блок один, на другом урл - несколько и т.д.

    В этих блоках есть всегда одни и те же элементы, типа <span class="address"></span>, <span class="note"></span>.

    И вот: при настроенных обычных границах внутри повторяющихся все элементы вычитываются отлично. Кроме одного: последний элемент вычитывается только один, первый раз - остальные (которые точно есть) парсер не берёт.

    Вот это у меня постоянные элементы внутри повторяющихся границ:

    Vendor [CC]{VALUE}:[GRAN4][NEXTPAIR]Vendor [CC] оценка{VALUE}:[GRAN5][NEXTPAIR]Vendor [CC] количество оценок{VALUE}:[GRAN6][NEXTPAIR]Vendor [CC] средняя оценка{VALUE}:[GRAN7][NEXTPAIR]Vendor [CC] категория{VALUE}:[GRAN8][NEXTPAIR]Vendor [CC][GRAN9]{VALUE}:[GRAN10]

    Последняя пара, Vendor [CC][GRAN9]{VALUE}:[GRAN10] - заболевшая. Причём: как видите, заголовок колонки берётся также из контента ([GRAN9]). Так что не работает вся пара - берётся и заголовок только первый, и содержание только первое.

    Как бы вот это дело поправить?
     
    Последнее редактирование: 23 сен 2019
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В таком случае прилагается файл проекта с указанием, что не так и как должно быть.
     
  3. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    Да, прикрепил файл проекта. Тем, кто будет пробовать - пользуйтесь прокси, которые в проекте, они рабочие, и, самое главное, их пропускает донор. А российские - капчей встречает.

    В экспортном файле после колонки с заголовком "Vendor 1 категория" следует колонка "Vendor 1 Letzte Aktualisierung" с содержанием "20.09.2019". Больше этот элемент не парсится, хотя на странице присутствует. [GRAN9] - это заголовок колонки с номером вендора, [GRAN10] - это собственно дата.

    Должно быть три колонки "Vendor Х Letzte Aktualisierung", по количеству вендоров/информационных блоков, задаваемых первым набором повторяющихся границ (class="rating-portal" [AUTO]div)
    • после колонки с заголовком "Vendor 1 категория" следует колонка "Vendor 1 Letzte Aktualisierung" с содержанием "20.09.2019" (парсится без проблем)
    • после колонки с заголовком "Vendor 2 категория" следует колонка "Vendor 2 Letzte Aktualisierung" с содержанием "20.09.2019",
    • после колонки с заголовком "Vendor 3 категория" следует колонка "Vendor 3 Letzte Aktualisierung" с содержанием "06.11.2018".
     

    Вложения:

    Последнее редактирование: 24 сен 2019
  4. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    Отцы, порадуете чем-нибудь? Если надо немецких прокси для продолжения исследований - скажите, их есть.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Первый цикл родительской повторяющейся границы содержит нужные данные, остальные - нет.
     
    evgenij нравится это.
  6. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    @Root а как получается, что остальные данные из тех же повторяющихся границ парсятся корректно? Не пойму никак: первый цикл - это тот, который с границами class="rating-portal" [AUTO]div ?
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Первый цикл родительской повторяющейся границы содержит нужные данные, остальные - нет.

    При задании обычных границ парсинга внутри повторяющейся можно листать циклы

    2019-09-25_23-45-31.png
     
  8. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    Всё равно неясно. Что значит "не содержат"? Они же есть на странице, видны точно так же, как и другие элементы, которые успешно парсятся.
    Поискал "листать циклы" - ничего не нашёл. Хотя вроде похоже на то, что надо...
     
  9. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 11300 постов.**
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Обычные границы парсинга, заданные внутри повторяющейся берут данные из каждого цикла повторяющейся. Если в первом цикле обычные границы выводят данные, значит они в цикле есть. Если во втором цикле (и дальше) данные не парсятся - значит их там нету. Для этого и рекомендовал пролистать циклы, как показано на скриншоте.

    Разбираться в файлах проектов людей у меня нет возможности. Хелп есть, функции работают.

    Если у вас никак настроить не получается, обратитесь, например, к Kagorec Ссылки недоступны для гостей (разобраться с одним моментом в проекте за несколько минут - дело не дорогое).

    Вашу жалобу под хайдом услышал (то, что вы описали - плохо), буду принимать меры. Сообщите так же под хайдом, как вы общались, если по Skype, то напишите ваш логин Skype.
     
    Kreol, evgenij и kagorec нравится это.
  11. evgenij

    evgenij Member Пользователи

    Регистрация:
    10 авг 2019
    Сообщения:
    49
    Спасибо. Так и сделаю.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 11320 постов.**
     
    Root нравится это.
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    При необходимости, можете написать мне, Можем посмотреть что там не так! В плане обработки повтр внутри повтр нужно все таки начальное форматирование данных и полное понимание конечного результата
     

Поделиться этой страницей