как спарсить tripadvisor com ?

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем Dizz, 8 янв 2015.

  1. Dizz

    Dizz New Member Пользователи

    Регистрация:
    8 янв 2015
    Сообщения:
    4
    Не получается спарсить ссылки на отели

    вот пример

    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    если нажать на кнопку "Hotel website" то перекидывает на саит отеля, вот надо спарсить эти ссылки

    программа не видит их
    Можно решить эту проблему ?

    Заранее благодарю!
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    Здравствуйте.

    Программа ее не видит в коде потому, что ее нет!

    Вот прикрепил решение (меню - файл - загрузить проект).

    Получаем редиректную ссылку макросом шаблона вывода [GETREDIRECT]

    С уважением к вам, Сергей.
     

    Вложения:

  3. Dizz

    Dizz New Member Пользователи

    Регистрация:
    8 янв 2015
    Сообщения:
    4
    не получается пропарсить весь саит . пишет что не хватает памяти
    что делать ?
    не получается разделить на куски
     
  4. yoshkin

    yoshkin New Member Пользователи

    Регистрация:
    8 май 2015
    Сообщения:
    1
    Подскажите, пожалуйста.

    Сам проект настроил корректно, собираются: названия, адреса, Email, страна, город и т.д.
    Но есть проблема в другом: сканер ссылок - собирает все отели подряд.

    Как ограничить именно поиск ссылок страной?

    Вижу пока только вариант делать через WBApp.

    Можно ли это сделать иначе?
     
  5. kdmc

    kdmc New Member Пользователи

    Регистрация:
    17 апр 2018
    Сообщения:
    2
    Город:
    Москва
    не скачивается((
     
  6. tema26mak

    tema26mak New Member Пользователи

    Регистрация:
    15 ноя 2019
    Сообщения:
    10
    Город:
    Москва

    Добрый день не скачивается файл буду благодарен если вышлите на почту или перезальёте
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    Здравствуйте.

    Тот файл проекта устарел, так как алгоритм работы сайта сменился.

    Приложил новый проект.

    Также ввел в программу новую функцию.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     

    Вложения:

  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    PS: Если в течение суток не смените название вашего города, удалю ваш аккаунт на форуме.
     
  9. tema26mak

    tema26mak New Member Пользователи

    Регистрация:
    15 ноя 2019
    Сообщения:
    10
    Город:
    Москва
    Исправил извините) Всё работает, попытался перенастроить чтобы почты тоже собирал с соседней кнопки, но не сработало помогите пожалуйста если не затруднит)
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    2020-03-02_14-04-30.png

    Код:
    {BASE64DECODE}|
    {skip}/|https://tripadvisor.ru/
     
  11. tema26mak

    tema26mak New Member Пользователи

    Регистрация:
    15 ноя 2019
    Сообщения:
    10
    Город:
    Москва
    Там насколько я понял вообще другой принцип
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    Не понимаю ни вопроса, ни проблемы. Следует изъясняться детально.

    Проект перед вами, в чем проблема?
     
  13. tema26mak

    tema26mak New Member Пользователи

    Регистрация:
    15 ноя 2019
    Сообщения:
    10
    Город:
    Москва
    Проблема в том что парсятся только ссылки на сайт, а задача спарсить почты из кнопки "Письмо в отель"
    Ссылки недоступны для гостей, зарегистрируйтесь или авторизуйтесь на форуме! на примере
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    Тема про парсинг ссылок на отели.

    Вы не сказали ничего про парсинг почты. И удивляетесь, что в предоставленном проекте настроен сбор ссылок.

    Я делал проект и оказалось, что для вас он не нужен.

    Такой подход мне не нравится.
     
    tema26mak нравится это.
  15. tema26mak

    tema26mak New Member Пользователи

    Регистрация:
    15 ноя 2019
    Сообщения:
    10
    Город:
    Москва
    Вы не так меня поняли проект очень нужен, просьба про парсинг почт это уже была дополнительная просьба. За ваше время и труд готов задонатить отпишитесь в ЛС пожалуйста
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    Отпишусь в этой теме, если будет результат.

    Донат за это не имеет сути.
     
  17. tema26mak

    tema26mak New Member Пользователи

    Регистрация:
    15 ноя 2019
    Сообщения:
    10
    Город:
    Москва
    Дело конечно ваше, но для меня это очень полезный и важный проект за который не грех заплатить. Так же остается открытым вопрос как собрать ссылки. Так как если использовать перебор в значениях "g187849-d232935" в адресной ссылке то начинает разбрасывать не только по отелям а по всему сайту
     
    Последнее редактирование: 2 мар 2020
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    На днях отпишусь тут.
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    12.673
    Для решения подобных задач выполнены доработки.

    Вот установщик:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 3 постов.**
    Проект Content Downloader и проект WBAppCEF прикрепил (проект WBAppCEF вам нужно будет скопировать в папку C:\Content\).
     

    Вложения:

  20. tema26mak

    tema26mak New Member Пользователи

    Регистрация:
    15 ноя 2019
    Сообщения:
    10
    Город:
    Москва
    Доброго дня! Вроде всё сделал подскажите в чем загвоздка. На 5м шаге стопоприться в итоге парсит безрезультатно. Может влияет тип лицензии программы?
     

    Вложения:

Поделиться этой страницей