Очередной парсинг и логика

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем salivan, 20 окт 2014.

  1. salivan

    salivan New Member Пользователи

    Регистрация:
    23 сен 2010
    Сообщения:
    9
    Всем привет, подскажите с логикой парсинга.

    1. есть урл, при переходе по урл, текст страницы разбит на несколько страниц с пагинацией, 1,2,3 и тд. как организовать логику парсинга всей данной страницы включая ее части

    пример, переходим на
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    статья ловарылоарво авыавыа аваыв и продолжение статьи отдельными страницами с номерами 1 2 3 4 5

    спасибо.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Парсить контент с первых страниц статей (как обычно), при этом остальные страницы статей подгружать макросом шаблона вывода <GETMORECONTENT> (Ссылки недоступны для гостей)

    С уважением к вам, Сергей.
     
  3. salivan

    salivan New Member Пользователи

    Регистрация:
    23 сен 2010
    Сообщения:
    9

    а как подгружать контент, если используется пагинатор
    1, 2, 3, 4 ... 100, то есть на странице находится всего 5 страниц, следующие номера страниц появляются при нажатии на страницу 4, будет выглядеть следующим образом 4.5.6.7 ... 100
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Посылать запросы тем же вышеупомянутым макросом <GETMORECONTENT> на все 100 страниц (прописав его 100 раз в шаблоне вывода с разными номерами страниц пагинации).
     
  5. salivan

    salivan New Member Пользователи

    Регистрация:
    23 сен 2010
    Сообщения:
    9
    а нельзя ли скажем генерировать нужное кол-во ссылок сразу, к примеру у меня много страниц и оно разное, не прописывать же при этом сразу 200-300 раз данный макрос <GETMORECONTENT> в данном случае можно пытаться дергать несуществующие записи.

    к примеру зайдя на страницу я точно знаю начало и конец (то есть количество страниц).

    1. переходим на site.com/test
    2. получаем данные первой страницы, и получаем цифру конечной в данном случае 4.
    3. генерируем список ссылок для конечного парсинга для данной вида
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    полученные страницы парсим уже <GETMORECONTENT> или еще как-то.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Это не предусмотрено. Для таких узконаправленных задач есть следующий вариант:
    Подключите скрипт (макрос <PHP_SCRIPT_0>), отправляйте ему цифру и пусть он генерирует и возвращает в программу нужное количество макросов <GETMORECONTENT>.

    Инструкция по подключению PHP-скриптов при парсинге есть тут Ссылки недоступны для гостей

    С уважением к вам, Сергей.
     
  7. salivan

    salivan New Member Пользователи

    Регистрация:
    23 сен 2010
    Сообщения:
    9

    а не могли бы, в проекте вставить как с одной страницы, для разных страниц использовать <GETMORECONTENT> не вставляя при этом разные урл на страницы в "получить параметры макроса" может границы неправильно цепляю, хочу спарсить страницы 1 2 3 4 5 6 7 8 9, с указанного урл, что указан в проекте
    а то немного запутался уже.

    спасибо
     

    Вложения:

    • test.cdp
      Размер файла:
      26,8 КБ
      Просмотров:
      1
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нет, так как в данном случае это не применимо к решению вашей задачи.

    Повторяю еще раз:
    Уговаривать делать так, простите, больше не собираюсь... Нет так нет...
     
  9. salivan

    salivan New Member Пользователи

    Регистрация:
    23 сен 2010
    Сообщения:
    9
    нет, просто выясняю как можно реализовать то, что нужно.
    с места вроде бы двинулось, но есть еще вопрос:


    шаблон
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**

    нужно ли еще что-то передавать или почему может не парсится текст в данном случае из скрипта, а только получается список <GETMORECONTENT>?
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте еще раз.

    Пожалуйста, ВНИМАТЕЛЬНЕЕ читайте, что я пишу.

    Цитирую свое сообщение снова, что поделать =)
    Обратите внимание на наличие _0 в <PHP_SCRIPT_0>.

    Вам нужно сделать так:
    Надеюсь, теперь вы решите этот вопрос.

    PS: Во избежание подобных недопониманий в работе макросов шаблона вывода рекомендую анализировать лог выполнения функций в окне предпросмотра результатов парсинга контента (дважды кликаем по названию макроса в логе и смотрим код документа, который был на этапе выполнения выбранного макроса).

    Пожалуйста, обращайтесь...

    С уважением к вам, Сергей.
     

Поделиться этой страницей