Несколько границ парсинга в GETMORECONTENT - как реализовать?

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем yup, 17 май 2015.

  1. yup

    yup Member Пользователи

    Регистрация:
    20 июн 2012
    Сообщения:
    44
    Добрый день!

    Задача такая:
    С одной страницы (url1) получаю нужные мне данные (скажем 2 десятка полей с соответствующими границами). В одной из границ (пусть будет <CD_GRAN_20!>) получаю url2, который ведет на связанную страницу, с которой нужно собрать ещё десяток полей (границ). Можно использовать конструкцию
    Код:
    <GETMORECONTENT><URL=<CD_GRAN_20!>><START="..."><END="..."></GETMORECONTENT>
    
    повторенную десяток раз для каждого нужного поля. Но при таком подходе, как я понимаю, будет генерироваться десять запросов к одному и тому же связанному url2 (т.е. страница будет загружаться десять раз), что есть плохо.
    Как правильно построить конструкцию что бы связанная страница скачивалась по GETMORECONTENT один раз и потом уже из неё добывались нужные поля, т.е. задать десяток границ к возвращенной GETMORECONTENT странице?
     
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте!
    Так как вы не приводите сайт с которым работаете остается лишь ответить на вопрос.
    Создается только один запрос GETMORECONTENT, а после удаляется поиск/заменой все ненужное
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Если у каждого последующего макроса GETMORECONTENT параметр URL один и тот же (как в вашем случае), то 10 раз грузиться страница не будет! Только один первый раз (остальные 9 раз код документа для GETMORECONTENT будет браться из кеша).

    С уважением к вам, Сергей.
     
  4. yup

    yup Member Пользователи

    Регистрация:
    20 июн 2012
    Сообщения:
    44
    К сайту точно повторные запросы уходить не будут? А то очень опасаюсь привлечь излишнее внимание, генерируя огромную кучу запросов, как бы не забанили логин…
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я ответил на ваш вопрос в посте #3
     

Поделиться этой страницей