Разобраться с использованием GETMORECONTENT

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Deyvidas, 7 мар 2017.

Метки:
  1. Deyvidas

    Deyvidas New Member Пользователи

    Регистрация:
    7 мар 2017
    Сообщения:
    3
    Провожу парсинг сайта. Страница для примера( с таких производится парсинг) Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме!
    На странице, есть аббревиатура учебного заведения (в странице для примера - это АГТУ).
    А в таблицу необходимо полное наименование учебного заведения.
    (Если нажать на АГТУ и перейти по ссылке, то можно его увидеть - АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ)
    Проблема в том, что ссылка для каждого учебного заведения меняется.
    Понял, что необходимо использовать GETMORECONTENT
    Уже читал Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! и смотрел видео, чего-то никак не могу догнать, что-то не так делаю.
    Как верно задать алгоритм парсеру?
     
  2. Deyvidas

    Deyvidas New Member Пользователи

    Регистрация:
    7 мар 2017
    Сообщения:
    3
    Мой вариант

    Пункт 1. Задаю сначала алгоритм парсинга в задачу <CD_GRAN_6!>.
    Необходимая ссылка в этом теге: <a href="/directory/astrahan/agtu">
    Но так как тег <a href="/directory/astrahan/agtu"> будет меняться в части выделенной красным цветом, задаю следующий алгоритм:
    Пункт 2. Начало: <a href="/directory/{skip}"

    [Работа над ошибками: ЗЕЛЁНЫМ ЭТО МОЯ ОШИБКА! Надо оставить ссылку, как есть!]

    Пункт 3.
    Конец: >

    Дальше использую макрос GETMORECONTENT.
    Пункт 4. Алгоритм таков:
    <GETMORECONTENT><URL=Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! "><START="<h1 class={"}university__title{"}>"><STARTCOUNT="0"><END="</h1>"><ENDCOUNT="0"><PARAMS="htmtotxt"></GETMORECONTENT>

    [Работа над ошибками: ССЫЛКУ, выделено красным, не надо дописывать - ЭТО МОЯ ОШИБКА! Просто оставить <CD_GRAN_6!>!]

    ---
    Пункт 5. В итоге: данные выводятся аббревиатурой - АГТУ
    А надо полное - АСТРАХАНСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ
    ---
    P.S. Похоже, что видео для обучения размещённое на странице Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! устарело. Даже фигурных скобок отчего-то на нём нет.
    И в заголовке знак ; не является разделителем при подписи столбцов.
    Лучше уж убрать такое видео, создаёт только путаницу.
     
    Последнее редактирование: 8 мар 2017
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    13.152
    Город:
    Барнаул
    Здравствуйте.

    С хелпом все в полном порядке! Если делать согласно хелпу, вообще никаких проблем нет.

    2017-03-08_09-06-06.png

    2017-03-08_09-07-27.png
     

    Вложения:

    • abitura_pro.cdp
      Размер файла:
      32,9 КБ
      Просмотров:
      11
    Deyvidas нравится это.
  4. Deyvidas

    Deyvidas New Member Пользователи

    Регистрация:
    7 мар 2017
    Сообщения:
    3
    Ошибки у себя нашёл.Спасибо!
    Только в обучающем видео говорится об абсолютных ссылках, т.е. якобы надо дописывать, не хватающей части, в моём случае это Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! в пункте 4. А получилось, что в моём случае, это ошибка.
     
    Последнее редактирование: 8 мар 2017
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.630
    Здравствуйте
    Подобные вещи в данный момент прописываются только тогда, когда если определенные условия для этого, например любые теги отличные от href
     
    Deyvidas нравится это.
  6. vit1812

    vit1812 New Member Пользователи

    Регистрация:
    28 июл 2017
    Сообщения:
    4
    Город:
    Санкт-Петербург
    Подкажите, как можно решить ошибку макроса GETMORECONTENT через DOWNLOADFILE, да и где она? Не могу скачать картинку по адресу, лог:
    Программе не удалось загрузить файл (''1502733169738'' is not a valid integer value) [1]
    Программе не удалось загрузить файл (''1502733169738'' is not a valid integer value)
    В чем может быть дело?
     

    Вложения:

  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.630
    и зачем там GETMORE? Обычно через
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    2017-08-07_22-30-59.png
     
  8. vit1812

    vit1812 New Member Пользователи

    Регистрация:
    28 июл 2017
    Сообщения:
    4
    Город:
    Санкт-Петербург
    Мдя...решение то простое и все работает, только как изначально все самому все решать...Впрочем, каюсь, весьма бегло смотрел справку по макросу, вероятно все там это есть. Почему впал в ступор...ведь страница с контентом по адресу Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! , а картинка Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! , то есть это два поддоменна, где schneider-electric.com - это основной, вот сложилось решение GETMORECONTENT + DOWNLOADFILE, то есть ссылку на картинку пишем в макрос GETMORECONTENT, а значение переданное GETMORECONTENT в DOWNLOADFILE....а на деле оказалось все гораздо проще - только используем макрос DOWNLOADFILE. Спасибо за помощь.
     
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.630
    Сам такое часто накручиваю) Со временем учишься проверять все на чистом проекте поэтапно, тогда и вопросов особо не возникает.
     

Поделиться этой страницей