Парсинг WEB Archive (парсинг Веб Архива)

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем zyzy, 5 сен 2019.

  1. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    Утро доброе. Хочу спарсить сайт из веб архива.
    Спарсил ссылки. Задал границы для страниц .html - все гуд.
    Но тут беда страницы с ?р попросту отдает код самого веб архива
    Ссылки недоступны для гостей
    А сама страница открывается в браузере.
    Пробовал ставить разные библиотеки, не помогло.
    Только грузится дольше. Подскажите как быть?
    Сам проект прикрепил.
     

    Вложения:

  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Скорее всего редиректы вебархива слишком суровые долгие.
    Через wbapp как вариант парсить и при наличии редиректа дожидаться загрузки страницы.

    [​IMG]
     
    Root нравится это.
  3. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    [​IMG]
    Дальше не видит.
    Вот так настроил
    [​IMG]

    Может я что то не так сделал?
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Страница недогрузилась, нужно дождаться.
     
  5. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    Ждал.
    Загрузилась и сама страничка , а вот код полностью нет.
    Ссылки недоступны для гостей
    Где еще можно покопать?
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Wbapp настройте макросики - ожидание появление элемента, паузу побольше. Например вам важно дождаться полной загрузки страницы из архива и там обязательно есть что-то внизу сайта, наподобие стилей footer, bottom, sidebar и т.д.
     
    zyzy нравится это.
  7. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    Сделал следующим образом
    [​IMG]
    Но ни чего не поменялось. Или я не там копаю?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вам нужно использовать новый WBAppCEF

    Ссылки недоступны для гостей

    Сейчас проверил, на Internet Explorer этот сайт корректно не работает, хотя прямые ссылки на заархивированные страницы показывает и проблем с их парсингом я не выявил.
     
    kagorec нравится это.
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Пример приложен к посту
     

    Вложения:

    Root нравится это.
  10. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    Спасибо.Скачал.
    Теперь возник вопрос насчет макросов.

    Имеем ссылку Ссылки недоступны для гостей
    но как я понял этот макрос не подходит. Просто происходит тоже о чем писалось выше.
    CLICK][id][N]0[/N][FULL][ET_WAITFOR]:footer
    Из моего понимания footer - это метка в коде
    Я открываю нашу страницу и там тоже есть эта метка. ТОгда почему этот макрос не подходит ?
    Где можно более подробно прочесть про макросы?
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    В WBAppCEF лучше реализовано.

    Ссылки недоступны для гостей
     
    zyzy и kagorec нравится это.
  12. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    УвыПосмотрел видео про установку. У меня
    [​IMG]
    Это мне надо обновиться до актуальной версии, или перейти на ультима?
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если у вас не ULTIMATE, то желательно обновиться для использования списка событий. При переходе на ULTIMATE у вас добавится также подписка на обновления, она у вас закончилась.
     
    zyzy нравится это.
  14. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    С обновлением понятно. 500 рублей на год,
    а сколько будет стоить переход на ультиму ?
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Start -> Standard 1000
    Start -> ULTIMATE 2000

    Ссылки недоступны для гостей

    При апгрейде подписка на обновления включена.
     
  16. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    Ну для меня пока ультима лишняя.
    А вот насчет подписки хотел уточнить.
    Если я сейчас ее обновлю, то программа обновится до актуальной версии и подписка у меня будет то следующего сентября?
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Да.
     
  18. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    И еще вопрос насчет обновления.
    Как узнать какая у меня версия? Стандарт, старт?
    И сколько я буду должен за обновления. А то я совсем запутался.
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ваш тип лицензии указан в главное меню - справка - о программе.

    Подписка на обновления на 1 год стоит 500 рублей.

    Ссылки недоступны для гостей
     
    zyzy нравится это.
  20. zyzy

    zyzy New Member Пользователи

    Регистрация:
    14 апр 2011
    Сообщения:
    46
    Оплатил, продублировал на емаил. Спасибо.
     

Поделиться этой страницей