Задание повторяющихся границ парсинга.

Тема в разделе "Границы парсинга", создана пользователем PoltavaPGS, 25 янв 2015.

  1. PoltavaPGS

    PoltavaPGS Member Пользователи

    Регистрация:
    21 янв 2015
    Сообщения:
    21
    Не могу придумать как правильно задать повторяющиеся границы. вот в таком вот коде. Я так понимаю что раньше можно было через ожидание закрытия тега.
    повторяющаяся граница от
    <div class="list-item hover
    до закрывающего ее din
    адрес страницы
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**

    HTML:
    <div class="addresses-list">
    
    	<div class="list-item hover  first">
    		<h3><a href="/azs/maveks-plyus.htm" title="Показать Мавекс Плюс на карте">Мавекс Плюс</a></h3>
            
    		
    		<div class="row">
    			<div class="left">Адрес:</div>
    			<div class="right">
    				
    				Одесская обл., Арцизский р-н, Арциз г., ул. Щорса, 1б
    			</div>
    			<div class="clear"></div>
    		</div>
    		
    		
    		
    		<div class="row">
    			<div class="left">Часы работы:</div>
    			<div class="right">круглосуточно</div>
    			<div class="clear"></div>
    		</div>
    		
    		
    		<div class="row">
    			<div class="left">Сайт:</div>
    			<div class="right">
    				<!--noindex-->
    				<a href="http://avias.com.ua" title="Мавекс Плюс" target="_blank" rel="nofollow">http://avias.com.ua</a>
    				<!--/noindex-->
    			</div>
    			<div class="clear"></div>
    		</div>
    		
    	</div>
    
        
    
    
    	<div class="list-item hover  ">
    		<h3><a href="/azs/maveks-plyus1.htm" title="Показать Мавекс Плюс на карте">Мавекс Плюс</a></h3>
            
    		
    		<div class="row">
    			<div class="left">Адрес:</div>
    			<div class="right">
    				
    				Одесская обл., Арцизский р-н, Арциз г., ул. Чапаева, 69а
    			</div>
    			<div class="clear"></div>
    		</div>
    		
    		
    		
    		<div class="row">
    			<div class="left">Часы работы:</div>
    			<div class="right">круглосуточно</div>
    			<div class="clear"></div>
    		</div>
    		
    		
    		<div class="row">
    			<div class="left">Сайт:</div>
    			<div class="right">
    				<!--noindex-->
    				<a href="http://avias.com.ua" title="Мавекс Плюс" target="_blank" rel="nofollow">http://avias.com.ua</a>
    				<!--/noindex-->
    			</div>
    			<div class="clear"></div>
    		</div>
    		
    	</div>
    
     
    Последнее редактирование модератором: 25 янв 2015
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Начало границы
    Конец границы
    И отметить "с границами"
     
  3. PoltavaPGS

    PoltavaPGS Member Пользователи

    Регистрация:
    21 янв 2015
    Сообщения:
    21
    Возможно я вас не понял но при таких границах мы получим кучу разрознены данных. потому что не будем знать откуда они пришли.
    Я планировал задать повторяющуюся границу таким образом чтобы она ограничивала 1 компанию а потом разобрать ее на части обычными границами внутри повторяющейся.
    каждая компания начинается тегом <div class="list-item hover а вот как задать закрывающий тег не придумаю никак.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Задайте конец парсинга следующим образом:
    Это подойдет, если у каждой компании указан сайт (в вашем примере указан у каждой).
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Предполагал задача в подробном сборе всей информации о каждой компании)
    Для блоков <div class="list-item hover и <!--/noindex-->

    Можно еще без зависимости наличия ссылки на сайт:
    Добавить в глобальную поиск-замена метку
    re:<div class="clear"></div>[\s\t\r\n]+</div>[\s\t\r\n]+</div>|<matka-bloka>
    Теперь для начало границы <div class="list-item hover
    Для конца границы <matka-bloka>
     
  6. PoltavaPGS

    PoltavaPGS Member Пользователи

    Регистрация:
    21 янв 2015
    Сообщения:
    21
    Сайт указан далеко не у всех к сожалению
    А вот вариант с регулярным выражение работает спасибо kagorec
    Буду разобраться как эта регулярка работает.
     
  7. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    В квадратных скобках перечисление содержимого
     
Similar Threads
  1. Letun777
    Ответов:
    7
    Просмотров:
    2.357
  2. Татьяна
    Ответов:
    6
    Просмотров:
    1.207
  3. videoinspector
    Ответов:
    3
    Просмотров:
    1.584
  4. prah
    Ответов:
    2
    Просмотров:
    1.313
  5. siriusdesign
    Ответов:
    2
    Просмотров:
    918
Загрузка...

Поделиться этой страницей