Как парсить Вконтакте (+ видео авторизации)

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Root, 14 янв 2012.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    К посту прикрепил видео об авторизации Вконтакте и включении поддержки скриптов во встроенном браузере.
    Если у вас возникнут какие-либо вопросы по парсингу Вконтакте, то задавайте их в этой теме.

    [youtube]9tG4OMQNFWc[/youtube]

    Забыл добавить, что нужно выставить 1 поток и паузу между запросами 1100 мс (тогда Вконтакте банить не будет).
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Не могу понять Вконтакте

    1. Если задать парсинг проекта, который есть в примере на странице видеопомощи, то всё работает, но парсится много лишнего мусора. Видимо я что-то не так делаю? Авторизовался, отослал куки, ввёл ключевики, прошёл все этапы получения ссылок, а вот на конце выдаётся куча мусора, половина ссылок ведут не по ключевикам, а ведут на страницы с правилами Контакта. Что-то я не так делаю?

    2. Изменить что-либо в проекте не удаётся. Никак не могу открыть vkontakte.ru, чтобы изменить настройки проекта. Хочется с некоторых клубов стя... взять картинки, но при попытке открыть настройки, выдаётся что у меня в браузере не включены жаваскрипт, и ничего на странице не видно. Авторизацию прошёл, куки отослал. Что ещё надо сделать, подскажите?
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    1. Настройте фильтры ссылок (видимо, верстка Вконтакте часто меняется и нужна подстройка)
    2. Ответ на видео, смотреть с 1:20
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Спасибо за оперативный ответ
    2. Я эту кнопочку внизу страницы как-то и не приметил, хотя видео смотрел, но не обратил внимание. Буду знать
     
  5. shumod

    shumod New Member Пользователи

    Регистрация:
    10 фев 2012
    Сообщения:
    5
    Интересует, как парсить видео из Вконтакте?
    Пока не получается, так как каждый раз там идёт уникальный хэш.

    UPD: разобрался
     
    Последнее редактирование: 10 фев 2012
  6. tronheym

    tronheym New Member Пользователи

    Регистрация:
    14 мар 2012
    Сообщения:
    13
    можно каким либо способом ускорить парсинг без задержки в 1100 мс?
     
  7. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Пробовать какие-нибудь платные прокси
     
  8. Skandar

    Skandar New Member Пользователи

    Регистрация:
    13 апр 2012
    Сообщения:
    9
    Опишите пожалуйста, как правильно парсить ссылки на страницы по критериям?
    Нужно получить ссылки на страницы людей по городу. Либо список их id.

    Как делал я: Авторизовался, включил скрипты, зашел в поиск по людям, выбрал город и скопировал полученную ссылку из окна браузера в сборщик ссылок.
    Результат: собирает всего несколько адресов.

    Добавил в очередь это ссылку несколько раз (одинаковую) - парсит дополнительные ссылки, но мало.


    Пробовал парсить контент - ссылки на страницы из поиска. Но собирает только результаты с первой страницы. Все, что скрывается под show more не ищет.
     
    Последнее редактирование: 23 май 2012
  9. broman

    broman New Member Пользователи

    Регистрация:
    7 июл 2012
    Сообщения:
    3
    ошибка при парсинге ссылок во встроенном браузере: method “htmltext” not supported by automation object
    это что и как лечится?
    и где включать js или они по умолчанию теперь работают?
     
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Ссылки недоступны для гостей

    Сайтов в интернете миллионы, и каждый имеет свори особенности. Какой-то из них, вы открыли. Интересно,- какой? [​IMG]
     
  11. nexodok

    nexodok New Member Пользователи

    Регистрация:
    22 июл 2012
    Сообщения:
    5
    А как парсить закрытые группы вконтакте?
     
  12. broman

    broman New Member Пользователи

    Регистрация:
    7 июл 2012
    Сообщения:
    3
    вступить в нее и авторизоваться
     
  13. nexodok

    nexodok New Member Пользователи

    Регистрация:
    22 июл 2012
    Сообщения:
    5
    Да это то понятно. Я авторизовался в группе, выставил метки начала и конца парсинга. Но там контент подгружается по мере сроллинга страницы. Вот этот момент как реализовать - не понятно?
     
  14. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Надо использовать Ссылки недоступны для гостей, найти ссылку, по которой идёт подгрузка, и под неё настроить получение ссылок
     
  15. nexodok

    nexodok New Member Пользователи

    Регистрация:
    22 июл 2012
    Сообщения:
    5
    Приведу конкретный пример. Группа находится по адресу Ссылки недоступны для гостей
    Скрипт HttpFox вылавливливает ссылку Ссылки недоступны для гостей , после исполнения которого подгружается стена. Но вот заставить этот скрипт работать в программе CD не получается. Может подскажете, как?
     
  16. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    О работе со скриптами рассказано Ссылки недоступны для гостей и вот тут в примерах
     
  17. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    Кто пехе шарит подскажите пжалуста, после прокрутки страницы вниз скрипту Ссылки недоступны для гостей postом, передаются 6 переменных, которые на скрине

    [​IMG]

    я думал шаблон вывода надо настроить так, чтобы он эти же параметры передавал скрипту и тогда, можно всю стену получить если в переменной offset указать количество постов на стене умноженной на 10. По сути, нужно в шаблоне вывода вот такой скрипт вставить и стена должна отобразится

    <PHP_SCRIPT=http://vk.com/al_wall.php>act=get_wall{break}al=1{break}fixed={break}offset=170{break}owner_id=-16843770{break}type=all</PHP_SCRIPT>

    но что-то не получается, а почему хз
     
  18. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Этот скрипт надо подстроить под конкретные страницы. Посмотрите ещё раз Ссылки недоступны для гостей
    Между <PHP_SCRIPT> и </PHP_SCRIPT> надо проставить нужную ссылку или макрос (CD_GRAN_1!, CD_GRAN_2! и так далее, в один тег может быть вставлено несколько границ парсинга). У вас этого нету. Кроме всего непонятно, каково предназначение {break} ?
     
  19. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Поддержу Valiks, а зачем {break} еще влепили, лучше почитайте описание для чего такие макросы.
    Ох zilon придумали себе велосипед))
    Недавно настраивал на парсинг форума и стенки vk.com и там все гораздо проще, тоесть обратите внимание что когда прокручиваете форум или стенку то адресная строка меняется ..//vk.com/wall-1234567890?offset={num}&own=1 - это значит что достаточно проставить диапазон с шагом 20
    п.с. такое возможно в этом месяце, возможно потом сменят структуру страниц, такчто обращайте внимание на дату постов форума.
     
    Последнее редактирование: 26 июл 2012
  20. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    Спасибо большое, действительно не надо ничего придумывать, VK парсить не сложнее чем ucozовский варезник.

    Неужели яндекс стал вконтакте индексирвать? Где же теперь уник брать:(
     
    Последнее редактирование: 26 июл 2012

Поделиться этой страницей