Помогите спарсить данные с 2-вух таблиц с разными заголовками

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем QuZ, 5 апр 2017.

  1. QuZ

    QuZ New Member Пользователи

    Регистрация:
    28 янв 2012
    Сообщения:
    32
    Добрый день. Уверен, что эта возможность реализована в системе, но за 2-ва последних года программу просто не узнал - авторам респект и низкий поклон.

    Ссылки недоступны для гостей
    - вот страничка, которая меня интересует. На ней 2-ве таблички (бензин и дизель).
    как пример, интересующей меня области границы - td class="catalog-table__cell" --- </td>
    По сути, хочу для каждого значения подставить значение соответствующей ей шапки.

    Спасибо, кто вник в проблему.
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Учтите, что нужно передавать куки и авто ру банит
     

    Вложения:

  3. QuZ

    QuZ New Member Пользователи

    Регистрация:
    28 янв 2012
    Сообщения:
    32
    Красиво. Просто и со вкусом).
    А про куку - знаю.. Достали немного с этим уже.


    Да, спасибо что показали {greedy} - очень удобно стало..
    {skip} - тоже не хватало такой штуки раньше) Теперь вообще все просто стало по сравнению с 1\3-тей версией))

    Да, смотрю, Вы сталкивались с авто.ру
    Кука у них генирируется на основании юзерагента, айпишника и т.д.?
    Или спокойно передав куку можно брать данные с них через проксю?

    Посмотрите пожалуйста, первую повторяющуюся границу поправил, но {skip} видно, мне пока малопонятен по работе.
    Спасибо за помощь.
     

    Вложения:

    Последнее редактирование: 5 апр 2017
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    непонятно что именно вы пытались сделать, но зато все поломали.
    В таких ситуациях как первый пост, лучше приводить сразу конечный пример.
    Приведите финальный csv файл
     
  5. QuZ

    QuZ New Member Пользователи

    Регистрация:
    28 янв 2012
    Сообщения:
    32
    Добавить ссылку /catalog/cars/audi/80/7878108/7878157/specifications/7878157__20388901/ дополнительно к существующему выводу, между тегами href=" и " в повторяющейся границе.

    Пример
    "Бензин";"1.6 AT";"101 л.c.";"автомат" ;"/catalog/cars/audi/80/7878108/7878157/specifications/7878157__20388901/"
    последовательность вывода информации в шаблоне не важна.

    Вы разбили на 2-ве границы таблицы, по каждой из границ прошлись повторяющейся границей, добавив вначало тип топлива. Далее, Вы поиском-заменой разбили повторяющуюся границу на элементы, и вывели их через тег разделения CSV файла. Как я понимаю, дале, Вы функцией skip убрали все лишние теги. Я бы это делал через функцию замены по регуляркам, но попробывал продолжить Ваш вариант.
     
    Последнее редактирование: 5 апр 2017
  6. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    так?
     

    Вложения:

  7. QuZ

    QuZ New Member Пользователи

    Регистрация:
    28 янв 2012
    Сообщения:
    32
    Да, спасибо.
    re:href=\"(.*?)\".*?>|>Ссылки недоступны для гостей - очень интересная конструкция у Вас приведена.
     
  8. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    В данной ситуации, это правильное решение) Может и не совсем, но довольно правильное.
     

Поделиться этой страницей