Автоматический парсинг kwork.ru с отправкой уведомлений в Telegram

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем AlexandrSorokin, 16 май 2020.

  1. AlexandrSorokin

    AlexandrSorokin Active Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    71
    Город:
    Пермь
    Привет!

    Представляю парсер новых заказов на бирже kwork. (Файл проекта во вложении)
    В Ваш канал Telegram будут поступать посты о новых заказах.
    Также можете включить Уведомления в Telegram, чтобы видеть уведомления на рабочем столе. Вдруг будет интересный заказ, сразу откликнетесь =)

    Парсер можно доработать под другие сайты, где нужно отслеживать данные, и вообще оформить под себя. Здесь представлена лишь основу и идея.
    Можете организовать такой канал, раскрутить и зарабатывать на нем =)

    [​IMG][​IMG]

    Для работы понадобится готовый бот в телеграм и канал телеграм, куда добавлен бот.
    *Если есть вопросы как его создать, пишите в личку, потому что тема не о нем..

    В сканере сайтов:
    1) Устанавливаем стартовый url
    Код:
    https://kwork.ru/projects?c=all
    2) Галочки Не пополнять очередь и Запускать парсинг контента после окончания работы сканера
    3) Настройка фильтров, Задать шаблон для ссылок
    Код:
    /projects/
    [​IMG]

    В окне Контент - Шаблон вывода указываем следующий код

    Код:
    <PHP_SCRIPT=https://api.telegram.org/bot[TOKEN]/sendMessage[UTF-8]>
    <HEADERS></HEADERS>
    <REPLACE></REPLACE>
    chat_id=@[NAME_GROUP]
    disable_web_page_preview=True
    text=[FIELDVALUE]<CD_GRAN_1!>
    
    <CD_GRAN_2!>
    
    <CD_DOCURL!>
    Цена до: <CD_GRAN_3!>
    [/FIELDVALUE]
    </PHP_SCRIPT>
    Где:
    1) [FIELDVALUE] - многострочный POST параметр, переносы строк учитываются в итоговом сообщении, поэтому добавил дополнительные для красоты.
    2) Token и Name_Group - токен бота и имя группы, куда отправляются новые задания с кворка.
    3) <CD_GRAN_1!>, 2 и 3 - обычные границы парсинга, сделал Название, Текст и Цена и ссылка на проект <CD_DOCURL!>
    4) disable_web_page_preview=True отключает превью ссылок, чтобы компактнее сморелись сообщения

    Далее в окне Фильтрации документов (Ctrl + t) указываем документ, куда будут сохраняться ссылки, чтобы парсить только новые задания.
    В сохранении результата указываем Перезаписывать, потому что будет записываться результат парсинга в файл и чтобы он не раздувался до больших размеров. К слову, сохраняться будут только ответы от api telegram, в них нет надобности.

    Перед запуском используем прокси, потому что из РФ нет доступов к серверу telegram.
    Например, для теста я использовал программу VPN Unlimited, она меняет IP для всей системы. Бесплатный тест на несколько дней.

    В планировщике (Ctrl + p) указываем наш проект, нужный интервал (я ставил 5 сек) и выбираем Запускать сканер сайтов.

    В ярлыке ContentDownloader указываем "C:\Program Files (x86)\Content Downloader X1\Content Downloader.exe" "planner" "minimize"
    Чтобы парсер запускался в фоне.

    [​IMG]
     

    Вложения:

    Последнее редактирование: 18 май 2020
    OLEG15799, Serheo, prepod и 6 другим нравится это.
  2. AlexandrSorokin

    AlexandrSorokin Active Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    71
    Город:
    Пермь
    Телеграм разблокировали на территории РФ.
    Поэтому больше не нужен прокси.
    Запускаете 1 парсер в скрытом режиме и забываете про него.
     
  3. kenny872012

    kenny872012 Well-Known Member Пользователи

    Регистрация:
    18 фев 2018
    Сообщения:
    313
    Хорошая новость
     
    AlexandrSorokin нравится это.
  4. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Не работает.
    пробовал разные варианты cis и win
    не удалось загрузить контент по заданному URL (Получено непредвиденное сообщение или оно имеет неправильный формат)
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Какой именно URL пытались загрузить?
     
  6. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Ссылки недоступны для гостей
    Попробуйте исполнить его в CD.
    Во всех вариантах сыпется ошибка.

    Php скрипт то же самое.

    <PHP_SCRIPT=Ссылки недоступны для гостей
    <HEADERS></HEADERS>
    <REPLACE></REPLACE>
    chat_id=@fedres_ru
    disable_web_page_preview=True
    text=ololo
    </PHP_SCRIPT>

    Любые варианты cis и win не спасают.
    Просто телеграмная ссылка не работает в парсере самом.
    ответ всегда: Программе не удалось загрузить WEB-страницу (Получено непредвиденное сообщение или оно имеет неправильный формат)
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    На Windows 7 библиотеки системы не могут работать с данным сервисом.

    Перенесите программу на Windows 10.

    2020-07-29_20-00-24.png
     
  8. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    К сожалению, не пользуюсь win10.
    Других вариантов больше нет?(
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нет, просто использовать Windows 10, где эти функции работают.
     
  10. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Так в wbapp работает всё.
    Ссылки недоступны для гостей
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    WBAppCEF весит около 100 мегабайт и использует свои функции для загрузки данных.

    А в Content Downloader используется множество системных функций Windows.

    Я не понимаю, к чему эти выяснения, когда конкретно сказано, что на Windows 10 работает, а на Windows 7 - нет.
     
  12. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Это был запуск на ноутбуке.
    Попробовал на компьютере, на нём тоже win7.
    Здесь всё почему-то прекрасно работает.

    Разобраться бы теперь в причине:)

    Ссылки недоступны для гостей скриншот доказательства
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Такого я не знал.

    Возможно, на той Windows 7, где у вас этот ресурс работает, установлены какие-то дополнительные пакеты типа NET Framework.

    Можно зайти в панель управления -> Программы и компоненты и посмотреть, что дополнительно установлено на том ПК, где обсуждаемый ресурс работает.

    Не мешало бы это знать, чтобы на Windows 7 у людей тоже работало.
     
  14. dexperanto

    dexperanto New Member Пользователи

    Регистрация:
    21 ноя 2014
    Сообщения:
    123
    Список программ на компьютере с Win7, где работает телеграм: Ссылки недоступны для гостей

    Список программ на ноутбуке, где не работает: Ссылки недоступны для гостей
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Установил на Windows 7:
    NET
    Visual
    Положительного эффекта нет.

    Возможно, дело в обновлениях OS, но моя Windows 7 не обновляется.
     
  16. Zus1032

    Zus1032 New Member Пользователи

    Регистрация:
    26 ноя 2021
    Сообщения:
    8
    Город:
    Москва
    а как тут реализовано отсеивание новое задание или нет... ника не могу понять это.
     
  17. Zus1032

    Zus1032 New Member Пользователи

    Регистрация:
    26 ноя 2021
    Сообщения:
    8
    Город:
    Москва
    подумал это для цели отслеживания новых сообщений на ресурсе Ссылки недоступны для гостей т.е. имеется желание что б если появилось новое 118 сообщение (на момент написания этого сообщения) оно с текстом сообщения и ссылкой отправилось в бота ...
     

Поделиться этой страницей