Помогите разобраться с сайтом для его парсинга

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем rotvellerr, 30 окт 2017.

  1. rotvellerr

    rotvellerr New Member Пользователи

    Регистрация:
    27 окт 2015
    Сообщения:
    58
    Есть сайт на котором есть каталог предприятий с их адресами
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Мне нужны только контактные данные этих самых предприятий
    Первая проблема с которой столкнулся, это то, что сканер сайта не видит ссылки, которые содержат
    Код:
    ?productID=
    хотя ссылки с таким параметром есть. Пробовал как с фильтрами так и без
    Ну, до Бог с ним, подумал я и собрал ссылки категорий.
    Начал определять границы повторяющих. И тут я завис...
    Использовал
    Код:
    {greedy}
    но столкнулся с тем, что последняя повторяющая не имеет окончания...
    Второе, информация о контактах находится в разных значениях.
    1.
    Код:
    <td colspan=2 bgcolor="#FFFFF">
                    <div itemscope itemtype="http://data-vocabulary.org/Organization">
    <a rel="nofollow" target="_blank" href="http://www.valeria-tur.com.ua" itemprop="url">
    <span itemprop="name" style="font-size:16px; font-weight: 800"><strong><u>Валерия</u></strong></span>
    </a><br>Туристическая фирма :
    <span itemprop="address" itemscope
          itemtype="http://data-vocabulary.org/Address">
    <span itemprop="region">Волынская область</span>,
    <span itemprop="locality">г. Луцк</span>,
    <span itemprop="street-address">пр. Грушевского, 3</span>,
    тел.:
    <span itemprop="tel">+38  (03322) 4-94-60, (0332) 21-02-75, (067) 361-50-04,
    (067)361-50-04, (050)647-87-10
    </span>,
    <a target="_blank" rel="nofollow"  href="mailto:valeria-tur-com-ua@ukr.net">valeria-tur-com-ua@ukr.net</a>
    </span>
    2.
    Код:
    <td colspan=2 bgcolor="#FFFFF">
                    <span style="font-size:24px; font-weight: 800; color:gray"><strong>VIP </strong></span><span itemprop="name" style="font-size:18px; font-weight: 800; color:darkred"><strong> Версаль</strong></span>
    <br>
    <strong>Комплекс отдыха</strong> : Винницкая область, г. Винница, ул. Тывровское шоссе, 2;  +38 (067) 433-30-26, +38 (0432) 27-37-13,
    <a  target="_blank" rel="nofollow" href="mailto:pkversal@gmail.com">pkversal@gmail.com</a><br>
    Как быть?
    Может предварительно отсортировать ссылки по типу и потом определять границы?
    Код:
    Комплекс отдыха
    Турагенство
    Готель 
    Посоветуйте, пожалуйста...
    Спасибо!
     

    Вложения:

  2. rotvellerr

    rotvellerr New Member Пользователи

    Регистрация:
    27 окт 2015
    Сообщения:
    58
    А почему сразу в платное?
    Если б я хотел заказать платную услугу - я б заказал.
    А так это форум поддержки и общения...
    Вы превращаете все запросы помощи разобраться с вашим софтом в платные???
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Мы поддерживаем когда обращаются с вопросами особенно когда задача на половине или конечном этапе настройки не получается.

    Давайте уточним если непонятно:

    Вы разместили техническое задание которому место в платном разделе!
    До и После приобретения лицензии, никто не обещает за вас делать проекты для любого нужного вам сайта.
    Форум это поддержка программного обеспечения, не стоит расценивать как сообщество альтруистов готовых решать за вас любые заказы.

    Чтобы распарсить данный источник у которого блоки повторяются с разной информацией - надо отдельной границей захватить весь блок с циклами этих обьявлений.
    Потом номер простой границы указать для повторяющиеся границы, чтобы повт. граница искала циклы только в той области кода.
    Предположительно, достаточно указать начало <tr и конец </tr> для повт.границы.
    Справка по теме:
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
    Root нравится это.

Поделиться этой страницей