Instagram

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем emkub, 22 фев 2020.

  1. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    Здравствуйте, друзья!
    Сложность при парсинге Instagram. Ещё на этапе сбора ссылок.
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    Повторить GET-запрос на подгрузку следующей страницы не могу, а используя прокрутку WBApp, удается собрать только первые 45 ссылок. Прямо-таки озадачен...
    Проект не прикрепляю, ибо пустой.
    Заранее спасибо.
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Ссылки недоступны для гостей
     
  3. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    Перед созданием нового вопроса просматривал все темы по поиску "инстаграм". Увы, ничего подходящего не нашел.
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     

    Вложения:

    emkub нравится это.
  5. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    ВААЩЕ! Когда нет необходимости следить за последними обновлениями отстаёшь от прогресса катастрофически!!!
    Суперское дополнение!
    Огромное спасибо!
     
    Root нравится это.
  6. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    Но даже с учетом хрома проблема не решилась... вниз прокручивается, но количество ссылок не увеличивается.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Возможно из-за окна с логином. Не знаю.
     
  8. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    Я залогинился.
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    В конце прокрутки наверно надо взять код через GETHTML
     
  10. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    [INSTANTACTIONS]
    [WAITFORMAINFRAMELOAD(2|30)]
    [SLABEL]
    [WAIT]:3000
    [SCROLLDOWNTHENRETURN]
    [GETHTML]

    Не помогло.
     
  11. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    Следующая страница подгружается по такому запосу:
    Ссылки недоступны для гостей

    query_hash=e769aa130647d2354c40ea6a439bfc08 - это нашел
    а вот variables... тут пока глухо.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Можете под хайдом предоставить логин с паролем для Инстаграм, попробую.
     
  13. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1000000 постов.**
    Если делать прокруткой, то конкретно в этом случае нужно около 700 прокруток.
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Первый раз такое вижу.

    Там в зависимости от позиции скролла (прокрутки WEB-страницы) изменяется код WEB-документа (из него выпадают "лишние" ссылки).

    Если через неделю в этой теме напомните, может быть и решу данный вопрос.

    Сейчас никак.
     
    emkub нравится это.
  15. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    Ха, прикольно!
    Да, конечно напомню, т.к. эта тема, думаю, будет интересна не только для меня :)
     
  16. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    Скорее всего моя мысль покажется вам очень тупой, но все же напишу. Мало ли, вдруг чем-то и поможет.
    Сейчас делаю так: в Хроме открываю панель разработчика (ф12), прокручиваю страницу инстаграма раз 30 и сохраняю все Response просто в текстовый *.har-файл (на скрине). Потом уже из него вычленяю нужные элементы.
     

    Вложения:

    Root нравится это.
  17. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    По вашей просьбе - напоминаю о теме :)
     
    Root нравится это.
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Замените файл WBApp.exe в папке ...\Content Downloader X1\WBAppCEF\ этим файлом
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 100 постов.**
    Файл проекта WBAppCEF для скроллинга приложил.
     

    Вложения:

    • Instagram.wbapp
      Размер файла:
      894 байт
      Просмотров:
      31
    xLime и emkub нравится это.
  19. emkub

    emkub Active Member Пользователи

    Регистрация:
    16 мар 2015
    Сообщения:
    157
    В очередной раз Спасибо!
     
    Root нравится это.
  20. Vasiliy

    Vasiliy New Member Пользователи

    Регистрация:
    10 мар 2020
    Сообщения:
    4
    Город:
    Москва
    Вот мне тоже надо эти ссылки, но у меня приложенный выше файл Instagram.wbapp не работает :(, возможно надо выполнить это:
    но скачать не могу, хайд великоват. Я их даже с монитора сети WBAppCEF не могу забрать оптом, копируется только одна ссылка:( Подскажите как можно взять эти ссылки?


    [​IMG]
     

Поделиться этой страницей