Парсинг карточек компаний из 2GIS (2ГИС, ДубльГИС)

Тема в разделе "Решение различных задач по парсингу", создана пользователем koleso62, 22 сен 2014.

Метки:
  1. koleso62

    koleso62 New Member Пользователи

    Регистрация:
    28 янв 2013
    Сообщения:
    29
    Доброго времени суток, уважаемые форумчане! Нужно спарсить ссылки на организации с сайта 2gis. Столкнулся с такой проблемой что не могу установить фокус на нужное окно. По умолчанию фокус на сайте установлен на карту, и если задать макрос скроллинга, то будет прокручиваться окно не с организациями а с картой. Подскажите пожалуйста как изменить фокус? Спасибо!
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.306
    Город:
    Барнаул
    Здравствуйте.

    Думаю, тут нужно идти немного другим способом получения данных - Ссылки недоступны для гостей

    И, насколько я знаю, господин Kagorec (Skype) умеет парсить 2GIS... Можете обратиться к нему.

    Спасибо!

    С уважением к вам, Сергей.
     
  3. Hontor

    Hontor New Member Пользователи

    Регистрация:
    5 мар 2015
    Сообщения:
    1
    Добрый день.
    Так как данная тема уже существует, позвольте задать вопрос тут.
    Так же как автор по видео сделал на сайте прокрутку элементов, добавил клик по элементу, чтобы открыть данные организации и клик для открытия контактов. после чего открывается всплывающее окно с данными, которые нужно парсить, подскажите каким образом данные только о этих всплывающих окон можно сохранить чтобы в дальнейшем парсить или же как можно парсить эти окна на лету и можно ли вообще?
     
  4. Haleh

    Haleh New Member Пользователи

    Регистрация:
    17 мар 2015
    Сообщения:
    1
    Аналогично

    Тоже интересует этот вопрос. Прошёл по тому же пути, прокрутку, клик. Но на настройке самого парсинга затык. Может кто нибудь популярно объяснить. Эксперты где вы?
     
  5. Rikishi

    Rikishi New Member Пользователи

    Регистрация:
    22 янв 2017
    Сообщения:
    5
    + к теме, по настройке самого парсинга может кто-то помочь или пару ссылок на нужные темы? буду оч. благодарен)
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.306
    Город:
    Барнаул
    Здравствуйте.

    Ссылки недоступны для гостей
     
    Rikishi нравится это.
  7. Rikishi

    Rikishi New Member Пользователи

    Регистрация:
    22 янв 2017
    Сообщения:
    5
    Спасибо!
     
    Root нравится это.
  8. hrumx

    hrumx New Member Пользователи

    Регистрация:
    23 мар 2018
    Сообщения:
    5
    Город:
    Нижнекамск
    Здравствуйте! Скачал проект на этой странице. Спасибо, тестирую. Всё хорошо, настроил парсинг нужных мне полей. Но уже 2 дня застрял на одной проблеме с парсингом ссылок в WBApp. При сворачивании/разворачивании окна WBApp часто завершается цикл и парсинг останавливается. Если окно не трогать - то более менее стабильно парсится. Но при каждом сворачивании есть риск что цикл прервется. Пробовал ставить разные паузы между событиями (50-5000) - никак не влияет. Возможно, сворачивание окна каким-то образом прерывает подгрузку документа, либо не даёт сработать клику по NextPage. Заснял короткий ролик, в котором я свернул WBApp несколько раз, но иногда и с первого раза прерывается. Буду благодарен если сможете помочь.
     
  9. hrumx

    hrumx New Member Пользователи

    Регистрация:
    23 мар 2018
    Сообщения:
    5
    Город:
    Нижнекамск
    Удалось разобраться самостоятельно. Пока не вылетает. Может кому-то пригодится:
    1. В скрипте клика заменил xpath на:
    //html/body/div/div/div/div[1]/div[1]/div[2]/div/div/div[2]/div/div/div/div[2]/div[2]/div[1]/div/div/div[1]/div[3]/div[2]/div[2]
    2. В конце этого скрипта добавил вызов клика DOMNODE.click(); (вместо макроса [MOUSECLICK]:{JSMESSAGE} )
    3. После скрипта клика добавил паузу [WAIT]:2000 - работает стабильно. С меньшей паузой (1000) - тоже более менее стабильно (вылетело лишь примерно после 100к ссылки). С паузой меньше 1000 вылеты начинают происходить чаще.
     
    Последнее редактирование: 27 июл 2021
    Masster и Rikishi нравится это.
  10. hrumx

    hrumx New Member Пользователи

    Регистрация:
    23 мар 2018
    Сообщения:
    5
    Город:
    Нижнекамск
    Можно ли задействовать многопоточный режим для парсинга ссылок через WBApp? Или лучше для этого использовать вкладку контент (создав отдельный проект под сбор ссылок)?
     
    Последнее редактирование: 28 июл 2021
  11. Rikishi

    Rikishi New Member Пользователи

    Регистрация:
    22 янв 2017
    Сообщения:
    5
    Большое спасибо! Инфа пригодилась, столкнулся с такой же проблемой, удалось починить по вашей методике)
     
  12. Masster

    Masster New Member Пользователи

    Регистрация:
    28 апр 2021
    Сообщения:
    10
    Добрый день!
    Спасибо! Метод помог, но, почему-то частично. Ссылки с однословного запроса парсятся как нужно. А вот, если в запросе больше одного слова, то в в большинстве случаев парсится только первые 12 ссылок. Вообще не могу понять как такое может быть. Примеры:
    Ссылки недоступны для гостей - все парсится без проблем
    Ссылки недоступны для гостей красоты - на удивление, хоть запрос и двухсловный, тоже парсится
    Ссылки недоступны для гостей комплекс - парсится только первая страница, как и практически у всех 2-х и 3-х-словных запросов.
    Может, у кого-нибудь есть идеи, почему так происходит и как с этим бороться?
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.306
    Город:
    Барнаул
    Здравствуйте.

    А в этом проекте у вас нормально?
     

    Вложения:

    • 2GIS_NEW3.cdp
      Размер файла:
      55,2 КБ
      Просмотров:
      2
  14. Masster

    Masster New Member Пользователи

    Регистрация:
    28 апр 2021
    Сообщения:
    10
    Сегодня чудесным образом начали парситься и другие двухсловники))) Правда, "жилой комплекс" так и не заработал - ну и ладно))))
     
    Последнее редактирование: 24 ноя 2021 в 09:34

Поделиться этой страницей