Парсинг страниц, генерируемых при помощи js

Тема в разделе "Свободный форум", создана пользователем BoBaH, 7 ноя 2021.

?

Хотите получить ссылку на api и документацию к нему, чтобы поучавствовать в тестировании?

  1. Хочу

    1 голосов
    33,3%
  2. Чувак, твоя идея *****, это никому не интересно

    2 голосов
    66,7%
  1. BoBaH

    BoBaH New Member Пользователи

    Регистрация:
    7 ноя 2021
    Сообщения:
    4
    Город:
    Барнаул
    Здравствуйте, уважаемые форумчане.
    В данный момент реализую api для получения статического html с большинства страниц в интернете. То есть js запускается на сервере, а Вы получаете стаческий html страницы либо скриншот страницы, если это необходимо (аналог примерно такого сервиса Ссылки недоступны для гостей)
    На начальном этапе, использование api будет абсолютно бесплатным*, но будут проводиться частые технические работы (api не получистя использовать для парсинга "по расписанию").
    Из самых больших минусов api - от пользователя api будет требовать http/socks прокси, для скачивания страниц (можно развернуть proxy сервер на своем пк, чтобы использование api остовалось полностью бесплатным)
    Хотел бы узнать, есть ли среди Вас желающие протестировать работу api?

    *На данный момент не знаю, сколько времени еще потребует разработка api, но до начала января api точно будет абсолютно бесплатным. Как только работы над api будут закончены, ожидается поднятие цены с 0 руб. за страницу до 0.0005 руб за страницу (500 руб. за 1кк скаченных страниц/скринов).
     
  2. Vladyslav

    Vladyslav Member Пользователи

    Регистрация:
    20 фев 2015
    Сообщения:
    58
    Здравствуйте, на мой взгляд, достаточно сомнительная идея. Теперь более подробно:

    Для начала Вам необходимо понять, кто будет Ваша ЦА. Если это люди, которые знакомы с разработкой, то подобное API, вряд ли, им пригодится, так как получение html страницы достаточно легко реализовать. Для прогрузки js можно использовать, к примеру, тот же Selenium. Хотя и стандартного curl хватает пока для анализа и получения контента большинства сайтов. По крайней мере, при анализе нескольких миллионов сайтов, я не столкнулся с большим процентом сайтов, которые прогружают контент через js или доступ к которым блочится cloudflare (его обход уже реализован в некоторых парсерах, которые можно купить).
    Если Ваша ЦА - вебмастера, то есть масса решений, которая решает эту проблему: Content Downloader, A-Parser, ZennoPoster и другие. Последние 3 я активно использую на протяжении долгого времени и они достаточно хорошо справляются со своей задачей.
    То есть, здесь, скорей всего, опять мимо ЦА.

    Мне кажется, что Ваше решение могло быть интересно, по крайней мере, мне, если бы, к примеру, прокси также были с Вас. Но и этого мало. Интересней была бы реализация не просто получения html кода, а решение какой-то конкретной задачи: к примеру, парсинг контактных данных (причем с обходом защит от парсинга, удалением ящиков типа example@mail.ru; с проверкой телефонных номеров на валидность, определение региона по номеру телефона + по адресу, если он есть на странице; поиск названия компаний и реквизитов), определение типа сайтов: интернет магазин, оффлайн магазин, новостной сайт, информационный портал и так далее.

    Вот эти вещи, уже могут быть более интересны. Опять же, это только пример, можно выбрать совершено другие задачи. Но думаю, основной посыл понятен.
     
  3. BoBaH

    BoBaH New Member Пользователи

    Регистрация:
    7 ноя 2021
    Сообщения:
    4
    Город:
    Барнаул
    Пока использование проекта является абсолютно бесплатным, у меня не получится использовать большой пул стабильных(не бесплатных) прокси, в данный момент сервис уже располагает небольшим списком прокси, и использование своего прокси сервера стало не обязательным.
    Приглашение на тестирование специалистов по парсингу данных, как раз нацелено на обеспечение лучшей инфраструктуры для парсинга, по сравнению с тем же selenium, в данный момент уже разработаны методы api, реализующие самые популярные функции selenium, а учитывая то, что в ближайшем будущем, сервис сможет обеспечить обработку запросов, более чем в 100 потоков (пользователь сможет парсить сайт в 100 потоков, не нагружая свой ПК), думаю сервис уже сможет конкурировать с selenium.
    Так же в планах организовать автоматическое решение популярных видов капчи на сервисе, и настроить web client сервиса, таким образом, чтобы он обходил самые популярные методы защиты от selenium ботов.

    Если сервис все таки выйдет на уровень платного использования, есть идея предоставить пользователям возможность создавать парсеры, которые будут запускаться и работать на наших серверах, чтобы их могли использовать другие пользователи сервиса (условно Вася описал парсер сайта А (для личных нужд). Ваня тоже захотел спарсить сайт А, нашел парсер Васи, заплатил за его запуск, получил данные, и часть вырученных денег перешла Васе на счёт. Вывести эти деньги, или использовать для оплаты работы с api, уже решать Васе. В таком случае Ваня потратит меньшую сумму, чем за заказ разработки парсера на фрилансе, а Вася получит дополнительную выгоду со своего парсера).
     
  4. masrub

    masrub Active Member Пользователи

    Регистрация:
    29 июн 2018
    Сообщения:
    83
    Описанный вами функционал Реализован в BAS, парсить можно хоть в 1000 потоков, нагрузка правда будет на проц огого, да и от кода все зависит. И передача прав тоже реализована очень просто, пакуется парсер в свой exe файл каоторый можно запускать где угодно, плюс контролировать проекты удаленно.
    "Так же в планах организовать автоматическое решение популярных видов капчи на сервисе"
    Вот без этого никуда уже, более вкусные сайты и капчай долбают и CloudFlare наворачивают. Хотя думаю довольно тяжело будет конкурировать с антикача сайтами.
     
  5. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    710
    А владелец сервиса - получит базу собранную Васей и Ваней, а также возможно узнает "тему" под которую собиралась база.
    Может продавать базу, а Васе с Петей - ничего не платить

    Тема из серии ТГ ботов по проверке проксей - кинь пачку проксей - мы проверим - вернем рабочие. ...А заодно и сами через ваши прокси поработаем ))
     
  6. BoBaH

    BoBaH New Member Пользователи

    Регистрация:
    7 ноя 2021
    Сообщения:
    4
    Город:
    Барнаул
    Если с прокси все понятно, и действительно есть смысл их использовать самому сервису, то с базой, собранной пользователями не все так однозначно.
    У проекта всё ещё будет цель привлечения новых пользователей (то есть продавать базу на внутреннем рынке, вместо какого-нибудь фриланса получается выгоднее, ведь в добавок к деньгам мы получим нового пользователя, который возможно оплатит ещё не одну базу/запуск парсера)
    Ну а если мы не выплатили деньги Васе - он решит, что с сервисом делиться парсерами совсем не выгодно, а значит мы не получим от него новые парсеры, а значит не сможем за счёт них привлечь новых пользователей в проект, а у них кстати деньги есть.

    Думаю здесь сравнения с сервисами по проверки прокси не очень уместно.
     
  7. BoBaH

    BoBaH New Member Пользователи

    Регистрация:
    7 ноя 2021
    Сообщения:
    4
    Город:
    Барнаул
    Про потоки: среднестатистическое проводное интернет соединение в России 104 Мбит/с, уже при 100 потоках мы получим скорость соединения примерно 0.125 Мбайт/с на один поток, получается не так уж и быстро (честно говоря не знаю, как обстоят дела у bas с кешированием, но не думаю, что оно сильно повлияет на скорость).
    Компилирование парсера в exe штука конечно хорошая, как и сам bas, но и bas и скомпилированный парсер запустятся только на windows7+/windows server. В связи с этим находятся две проблемы: подовляющее большинство серверов используют unix-подобные ос, ресурсы большинства серверов не позволяют разместить средне-крупный парсер и, например, интернет магазин на одном сервере(магазин при запуске парсера начнет сильно "тормозить").
    В данный момент тема тех же интернет магазинов сильно развивается, появляется много стартапов, которые не могут позволить себе финансовую поддержку сервера, который бы с уверенность покрывал все из нужды.
     
    Последнее редактирование: 12 ноя 2021

Поделиться этой страницей