Спарсить категории

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем zyzy, 14 фев 2013.

  1. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    День добрый. Требуется спарсить контент вместе с категориями, и раскидать его по этим же категориям, подскажите как сделать.
    Сам пациент _http://easy-mama.ru/
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    глубоко не вдавался. по внешнему виду -
    1. при формировании категорий отталкиваться от рубрик (справа)
    2. для сортировки спарсенного контента согласно рубрикам воспользоваться макросом [PARAM]
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Начало границы
    конец границы
    Что такое границы и как ими пользоваться - Ссылки недоступны для гостей
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
    Видео "задание границ парсинга для рубрик или подрубрик".
     
  5. Igor_st

    Igor_st New Member Пользователи

    Регистрация:
    8 фев 2013
    Сообщения:
    46
    Подскажите, есть такой код

    <div class="r-1"><div class="rl-1">название</div><div style="width:185px" class="rl-2 flt">Снайпер 4</div></div>
    <div class="r-2"><div class="rl-1">видео</div><div class="rl-2">Sniper: Reloaded</div></div>
    <div class="r-1"><div class="rl-1">год</div><div class="rl-2"><a href="http://*****.ru/year/in-2011/" rel="tag">2011</a></div></div>
    <div class="r-2"><div class="rl-1">страна</div><div class="rl-2"><a href="http://*****.ru/country/germaniya/" rel="tag">Германия</a>, <a href="http://*****.ru/country/yuar/" rel="tag">ЮАР</a></div></div>
    <div class="r-1"><div class="rl-1">жанр</div><div class="rl-2"><a href="http://*****.ru/genre/boevik/" rel="tag">боевик</a>, <a href="http://*****.ru/genre/voennyj/" rel="tag">военный</a>, <a href="http://*****.ru/genre/drama/" rel="tag">драма</a>, <a href="http://*****.ru/genre/triller/" rel="tag">триллер</a></div></div>
    <div class="r-2"><div class="rl-1">длительность</div><div class="rl-2">1 час 31 мин</div></div>
    </div>

    Вот нужно как то спарсить жанр, страну, год в определенные ячейки CSV файла. На каждой странице сайта эти данные могут быть разные и количество строк также. При парсенге повторяющихся границ вся таблица сежает, а при парсинге просто границ непонятно как задавать границы
     
  6. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    если включить в первую часть границы искомое слово, проблема должна решиться (по кр. мере в том виде, в каком Вы ее изложили):

    к примеру начало границы которая выдаст год -
    Код:
    <div class="rl-1">год</div>
    конец -
    Код:
    </a>
    при этом само слово "год" пропадет. чтобы это не произошло - активировать опцию "парсить с границами", или в настройках самой границы дописать к ее началу все, что пожелаете. лишний код - удалять функцией htm2txt.
    в какую ячейку сохранять - определяете в шаблоне вывода, при правильно заданных границах к структуре кода это, как правило, не относится.

    написанное в равной мере относится к обычным, повторяющимся границам, и обычным границам внутри повторяющихся.
     
  7. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214

    Для парсинга жанра:
    начало границы:
    жанр{skip} rel="tag">
    конец границы
    </a>

    Для парсинга года:
    начало границы:
    год{skip} rel="tag">
    конец границы
    </a>
     

Поделиться этой страницей