Парсинг пользователей и их сообщений с форума.

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем vavera4ka, 8 сен 2013.

  1. vavera4ka

    vavera4ka New Member Пользователи

    Регистрация:
    28 авг 2013
    Сообщения:
    23
    Доброго всем дня, камрады :)

    Суть моей задачи состоит в следующем:

    1. Есть форум, нужно выдернуть оттуда всех пользователей с кол-вом сообщений, датой регистрации, и последней активностью, это все сложить в таблицу "USER".
    2. Собрать сообщения пользователей из списка заданных тем. Каждое сообщение должно привязываться к определенному пользователю в БД.

    Это что касается теоретической части.

    Что касается практической, то я столкнулся с тем, что нельзя с однозначно заданными повторяющимися границами.

    На форуме ужасная верстка, но это пол беды, дело в том, что блоки с сообщениями динамичны, в зависимости от того, есть ли у пользователя подпись, цитирует ли он сообщение предыдущего комментатора.

    То есть мы имеем три варианта повторяющихся блоков. Как быть в таком случае?

    Примеры кода:

    Первый вариант.

    HTML:
    <div class="row-content-tut">
    				
    				
    
    						
    						
    
    							"...российское руководство продолжает считать неприемлемой ситуацию с арестом Баумгертнера..."<br>
    <br>
    Пусть продолжает считать, а Баумгертнер продолжает сидеть, ничего не изменилось)
    					
    					
    
    			<div class="after_content"><br>
    				
                                           
                                     
    				
    
     -------------------- 
    <br>
    		        		<blockquote><div class="signaturecontainer"><span style="font-family: Arial Black"><b>Что же вы на меня смотрите, как солдат на вошь? Обалдели от счастья?</b></span></div></blockquote>
    				
                                            
    			</div>
    			
    				
    </div>
    
     <div id="row-icons" class="row-icons" style="margin:0;">
    
    
    <input class="btn" onclick="location.href='newreply.php?do=newreply&amp;p=20774883'" value="Ответить" style="float:left;margin-right:3px;" type="button">
    
    
    
    <!--*****************************************-->
    
    Второй вариант.

    HTML:
    <div class="row-content-tut">
    				
    				
    
    						
    						
    
    							<div class="answ2" id="answ2">		
    			
    		abrakadabra555  (05.09.13 12:33) писал(a):   
    				
    <div class="answ2-body"> Правильное прочтение новости: друзья и партнеры Керимова в российском правительстве считают разоблачение его махинаций неприемлемым</div>
    			
    
    </div> Дворкович - купленный чиновник, зачем с ним вести переговоры на тему Уралкалия, ведь его позиция понятна и до переговоров, она не изменится, Беларусь ему взятки в отличие от Керимова не даст.
    					
    					
    
    				
    </div>
    
     <div id="row-icons" class="row-icons" style="margin:0;">
    
    
    <input class="btn" onclick="location.href='newreply.php?do=newreply&amp;p=20775120'" value="Ответить" style="float:left;margin-right:3px;" type="button">
    
    
    
    <!--*****************************************-->
    Третий вариант.

    HTML:
    <div class="row-content-tut">
    				
    				
    
    						
    						
    
    							Семашко хоть нормальную шконку выделили?
    					
    					
    
    				
    </div>
    
     <div id="row-icons" class="row-icons" style="margin:0;">
    
    
    <input class="btn" onclick="location.href='newreply.php?do=newreply&amp;p=20774927'" value="Ответить" style="float:left;margin-right:3px;" type="button">
    
    
    
    <!--*****************************************-->

    Как быть то в моем случае?
    :confused::confused::confused:
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Для "повторяющиеся границы" укажите один из циклов тоесть код поста. Далее внутри повт.границы укажите границы по отдельности в таком порядке как вам удобно. Граница текстовая тоесть пост которая зацепляет, в ней НЕ отмечайте htmtotxt чтоб в "дополнительные настройки границ" можно было манипулировать с тегами к примеу удалить цитаты и подписи
     

Поделиться этой страницей