Как спарсить сайт в определенный шаблон вывода?

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Jagger, 5 дек 2013.

  1. Jagger

    Jagger New Member Пользователи

    Регистрация:
    29 ноя 2013
    Сообщения:
    19
    Добрый вечер такая ситуация, есть такой код:

    HTML:
    <html>
    <head>
    <meta http-equiv="Content-Type" content="text/html; charset=windows-1251">
    <title>АСПИРИН</title>
    <meta name="description" content="Дескрипшн" />
    <meta name="description" content="Кейвордс" />
    </head>
    
    <body>
    <center>
    <table width="1060" border="0" class="класс">
      <tr>
        <?php include("просто инклуды.php");?>
        </tr>
      <tr>
        <td width="700">
        <table width="700">
    	<!-- начало первого блока -->
      <tr>
        <td width="591"></td>
        <td width="270" rowspan="2" align="center" valign="top"><h2>КЕТАНОЛ<a href="">ссылка</a></h2>
        <h2>АНТИГРИПИН</h2></td>
      </tr>
      <tr>
        <td><h1>ЗЕЛЕНКА</h1>
        МАЗЬ МАЗЬ МАЗЬ МАЗЬ</td>
        </tr>
    </table>
        <!-- конец первого блока -->
    .
    .
    .
    .
    .
    .
    .
    .
    	
    	</td>
        <?php include("просто инклуды.php");?>
        </tr>
      <tr>
        <?php include("просто инклуды.php");?>
        </tr>
    </table>
    </center>
    </body>
    </html>
    Все что нужно это спарсить 5 частей в коде, а именно:
    1. АСПИРИН
    2. КЕТАНОЛ
    3. АНТИГРИПИН
    4. ЗЕЛЕНКА
    5. МАЗЬ МАЗЬ МАЗЬ МАЗЬ

    Так вот основная загвоздка в том что блоков обозначенных в данном случае (<!-- начало первого блока --> <!-- начало первого блока -->) 36 на странице, естественно обычных границ парсинга мне не хватает, т.к. их всего лишь 20, а повторяющиеся границы выводят содержимое не так как хотелось бы а именно вот шаблон вывода:

    HTML:
    <!-- начало первого блока -->
      <tr>
        <td width="591"></td>
        <td width="270" rowspan="2" align="center" valign="top"><CD_CYCLE_GRAN_1!>
    <h2>АСПИРИН</h2>
    <h2>КЕТАНОЛ</h2>
    <h2>АНТИГРИПИН</h2>
    <h2>ЗЕЛЕНКА</h2>
    <h2>МАЗЬ МАЗЬ МАЗЬ МАЗЬ<h2>
                                                 
                                         <a href=""><h2><CD_CYCLE_GRAN_1!></a></h2>
                                         <a href=""><h2>АСПИРИН</a></h2>
                                         <a href=""><h2>КЕТАНОЛ</a></h2>
                                         <a href=""><h2>АНТИГРИПИН</a></h2>
                                         <a href=""><h2>ЗЕЛЕНКА</a></h2>
                                       <a href=""><h2>МАЗЬ МАЗЬ МАЗЬ МАЗЬ</a></h2>
    
    
    .
    .
    .
    .
    .
        <!-- конец первого блока -->
    (и таких блоков на 1-ой странице 36)

    Т.е. получается так что на каждый ввод в шаблоне вывода <CD_CYCLE_GRAN_1!> он мне выводит все что он нашел в повторяющихся границах, а мне нужно чтобы он выводил только соответствующую на данно этапе границу, т.е. чтобы получилось как в первом коде который в начале.
    Пробывал <GETMORECONTENT> но как я понял задается каждая граница в ручную а 4000 с лишним страниц ковырять мало веселого, вот если бы было больше границ обычного парсинга, но их нет...
    Помогите пожалуйста может есть какой нибудь супер макрос или функция
    в которой можно будет сделать так чтобы можно было бы выводить все в шаблон вывода, так как нужно а не все скопом.
     
    Последнее редактирование: 5 дек 2013
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Mr Jagger, здравствуйте!

    Обратите внимание на динамические границы парсинга Ссылки недоступны для гостей
    С уважением к вам, Сергей.
     
  3. Jagger

    Jagger New Member Пользователи

    Регистрация:
    29 ноя 2013
    Сообщения:
    19
    Здравствуйте, обновил прогу до версии стандарт чтобы можно было использовать динамические границы, но не совсем понимаю как теперь их использовать... значит так что у меня есть:

    шаблон вывода
    <td width="591">(здесь динамическая граница)</td>
    тегов (td width="591") на 1-ой странице 36, всего страниц 4000+, мне нужно спарсить содержимое всех тегов (td width="591"), но содержимое каждого этого тега меняется... т.е. абсолютно в каждом теге оно содержимое - разное
    например:
    1.<td width="591">картошка</td>
    2.<td width="591">помидора</td>
    3.<td width="591">огурец</td>

    Если я задаю допустим динамическую границу:
    От <td width="591"> до </td>
    то получается если в первом теге я указал эту границу она везде подставляется одинаковой, т.е. грубо говоря везде у меня внутри тегов парсится/подставляется/выводиться только "картошка".

    Тобишь теперь непонятно в каком месте эти границы динамические, получается так как будто я вставил в шаблон вывода, обычные границы парсинга, т.е. вот так:
    1.<td width="591"><CD_GRAN_1!></td>
    2.<td width="591"><CD_GRAN_1!></td>
    3.<td width="591"><CD_GRAN_1!></td>

    Вобщем что то я не пойму что делать, как использовать эти границы так как мне нужно... подскажите пожалуйста, что то я ведь не так делаю...
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Видимо, вы изначально перепутали понятия: динамические и повторяющиеся (а я поспешил и не так понял суть вашей проблемы).
    Как я понял, вам нужно использовать повторяющиеся. Откройте программу, нажмите ctrl+1 и задайте одну повторяющуюся границу (она спарсит все вхождения).
    Если хотите, напишите мне на почту ваш ключ и кошелек, верну деньги за апдейт вашего ключа.
    С уважением к вам, Сергей.
     
  5. Jagger

    Jagger New Member Пользователи

    Регистрация:
    29 ноя 2013
    Сообщения:
    19
    Не спасибо, все равно там 10 потоков лучше чем 5... но мне кажется вы все правильно поняли изначально, только я вас запутал
    [​IMG][/URL][/IMG]

    вот схема сайта на картинке вот так они должны быть спаршены и в такой же шаблон вывода вставлены, а не просто в тхт файл, повторяющиеся границы тоже не подходят мне каждое содержимое тега td width="591" нужно вставить в свой шаблон вывода.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Откройте настройку повторяющихся границ на панели инструментов и вставьте туда нужный "шаблон вывода". Я не совсем понимаю ваших задач...
     
  7. Jagger

    Jagger New Member Пользователи

    Регистрация:
    29 ноя 2013
    Сообщения:
    19
    ок, а к кому можно обратиться за индивидуальной помощью?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Заказать настройку программы Content Downloader 8 можно у следующих людей:
    Skype: Kagorec
    Skype: alamina.moon (ICQ 60202000)
    Skype: JoomlaLife.com (ICQ: 227274104)
    Они же вас могут персонально обучить работе с программой по TeamViewer или проконсультировать в определенных моментах (за умеренную плату). Спасибо!
     

Поделиться этой страницей