Автоматический парсинг kwork.ru с отправкой уведомлений в Telegram

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем AlexandrSorokin, 16 май 2020.

  1. AlexandrSorokin

    AlexandrSorokin Member Пользователи

    Регистрация:
    27 ноя 2018
    Сообщения:
    67
    Город:
    Пермь
    Привет!

    Представляю парсер новых заказов на бирже kwork. (Файл проекта во вложении)
    В Ваш канал Telegram будут поступать посты о новых заказах.
    Также можете включить Уведомления в Telegram, чтобы видеть уведомления на рабочем столе. Вдруг будет интересный заказ, сразу откликнетесь =)

    Парсер можно доработать под другие сайты, где нужно отслеживать данные, и вообще оформить под себя. Здесь представлена лишь основу и идея.
    Можете организовать такой канал, раскрутить и зарабатывать на нем =)

    [​IMG][​IMG]

    Для работы понадобится готовый бот в телеграм и канал телеграм, куда добавлен бот.
    *Если есть вопросы как его создать, пишите в личку, потому что тема не о нем..

    В сканере сайтов:
    1) Устанавливаем стартовый url
    Код:
    https://kwork.ru/projects?c=all
    2) Галочки Не пополнять очередь и Запускать парсинг контента после окончания работы сканера
    3) Настройка фильтров, Задать шаблон для ссылок
    Код:
    /projects/
    [​IMG]

    В окне Контент - Шаблон вывода указываем следующий код

    Код:
    <PHP_SCRIPT=https://api.telegram.org/bot[TOKEN]/sendMessage[UTF-8]>
    <HEADERS></HEADERS>
    <REPLACE></REPLACE>
    chat_id=@[NAME_GROUP]
    disable_web_page_preview=True
    text=[FIELDVALUE]<CD_GRAN_1!>
    
    <CD_GRAN_2!>
    
    <CD_DOCURL!>
    Цена до: <CD_GRAN_3!>
    [/FIELDVALUE]
    </PHP_SCRIPT>
    Где:
    1) [FIELDVALUE] - многострочный POST параметр, переносы строк учитываются в итоговом сообщении, поэтому добавил дополнительные для красоты.
    2) Token и Name_Group - токен бота и имя группы, куда отправляются новые задания с кворка.
    3) <CD_GRAN_1!>, 2 и 3 - обычные границы парсинга, сделал Название, Текст и Цена и ссылка на проект <CD_DOCURL!>
    4) disable_web_page_preview=True отключает превью ссылок, чтобы компактнее сморелись сообщения

    Далее в окне Фильтрации документов (Ctrl + t) указываем документ, куда будут сохраняться ссылки, чтобы парсить только новые задания.
    В сохранении результата указываем Перезаписывать, потому что будет записываться результат парсинга в файл и чтобы он не раздувался до больших размеров. К слову, сохраняться будут только ответы от api telegram, в них нет надобности.

    Перед запуском используем прокси, потому что из РФ нет доступов к серверу telegram.
    Например, для теста я использовал программу VPN Unlimited, она меняет IP для всей системы. Бесплатный тест на несколько дней.

    В планировщике (Ctrl + p) указываем наш проект, нужный интервал (я ставил 5 сек) и выбираем Запускать сканер сайтов.

    В ярлыке ContentDownloader указываем "C:\Program Files (x86)\Content Downloader X1\Content Downloader.exe" "planner" "minimize"
    Чтобы парсер запускался в фоне.

    [​IMG]
     

    Вложения:

    Последнее редактирование: 18 май 2020
    Belent, green, kenny872012 и 3 другим нравится это.

Поделиться этой страницей