Databricks的16亿美元融资轮对企业AI市场意味着什么
对企业人工智能日益增长的兴趣的最新赢家是 Databricks,这家初创公司刚刚以 380 亿美元的疯狂估值获得了 16 亿美元的 H 系列资金。最新一轮的投资是在 Databricks 又筹集了 10 亿美元之后几个月进行的。
Databricks 是为统一、处理和分析存储在不同来源和架构中的数据提供服务和产品的几家公司之一。该类别还包括去年进行了大规模 IPO 并拥有 900 亿美元市值的 Snowflake,以及去年上市的另一家企业 AI 公司 C3.ai。
为什么投资者会迷恋 Databricks 这样的公司?因为它们正在解决一些阻碍公司尝试启动机器学习项目以降低运营成本、改进产品和用户体验并增加收入的最大挑战。
像 Databricks 这样的公司可以为企业 AI 市场做些什么让很多人兴奋不已。但巨额估值是否合理,还是市场炒作的副产品仍有待观察。鉴于这些公司的结构及其商业模式,尚不清楚它们将如何继续保持投资者预期的增长,以及它们是否能够承受科技巨头带来的长期和不可避免的竞争。
解决数据问题
许多公司正试图改善数据驱动的运营并启动机器学习项目,但很难利用他们的数据基础设施。得益于可扩展的云服务,公司无需在 IT 基础设施和人才方面进行前期投资即可收集大量数据。
但是,使用这些数据说起来容易做起来难。在已经存在一段时间的大公司中,数据通常分布在不同的系统中并以不同的标准存储。他们结合了经典的基于模式的数据仓库和无模式的数据湖,存储在公司服务器和云中。不同的数据存储可能使用不同的约定来注册相似的信息,从而使它们彼此不兼容。某些数据库可能包含敏感信息,这对将它们提供给不同的数据科学和商业智能团队构成了挑战。
所有这些都使得整合数据并为机器学习模型和商业智能工具的使用做好准备变得非常困难。事实上,不同的调查表明,应用机器学习项目的最高障碍与数据工程任务和人才有关。
这是像 Databricks 这样的公司正在解决的问题。Databricks 的创始人包括 Apache Spark、Delta Lake 和 MLflow 的开发人员,这三个开源项目已成为在非常大的不同数据源上运行的机器学习项目的关键组件。Apache Spark 是一种分析引擎,可以处理各种格式的大量数据。Delta Lake 是一个存储层,将数据湖和数据仓库结合在一个架构中,可以像经典数据库一样查询。MLflow 是一种用于管理机器学习管道和跟踪不同版本模型的工具。
Databricks 的主要云服务 Lakehouse 使用所有这些项目将不同的数据源整合在一起,并使数据科学家和分析师能够从单个平台运行工作负载。
该公司的统一平台使商业智能和机器学习团队可以轻松协作和共享工作空间。它通过提供对不同数据源的统一访问来减少数据工程的负载。在幕后,它可以处理不兼容的模式、匿名化以及流数据和批处理数据之间的切换等问题。
与同类其他服务一样,Databricks 的平台支持 Microsoft Azure、亚马逊网络服务和谷歌云,这是大多数企业用来存储数据的云基础设施。这为 Databricks 提供了利用主要云提供商坚固且可扩展的基础架构的优势,并消除了客户迁移数据的需要(但也为其业务带来了一些风险,我将在后面讨论)。
大客户
Databricks 的服务对于拥有大量未开发数据的组织来说具有巨大的价值。
例如,阿斯利康使用 Databricks 的平台来统一数百个内部和公共数据源。这导致更快更顺畅的查询、更好的团队协作和更快的操作,这对于一个花费数十亿美元和多年研究寻找有希望的假设和运行实验的行业来说至关重要。
汇丰银行使用该平台改进其欺诈检测系统和推荐引擎。该银行能够将 14 个数据库整合到一个 Delta Lake 中,供其数据科学和机器学习团队使用。Delta Lake 的设立是为了满足一些法律和监管要求,例如在将客户数据发送到机器学习模型之前对其进行匿名处理。改进的数据管道使操作速度提高了几个数量级,并帮助机器学习团队加快了模型的开发、训练和调优。总体结果是客户体验得到改善,银行移动应用程序 PayMe 的用户参与度增加了 4.5 倍。
看看 Databricks 的竞争对手,就会发现类似的趋势。C3.ai 的客户包括石油和天然气巨头、政府机构、大型制造商和医疗保健公司。Snowflake 为超市和连锁餐厅、包装食品和饮料公司以及医疗保健组织提供服务。
科技公司对企业数据管理和人工智能服务也很有吸引力,但市场仅限于无法建立自己的数据管道或处于机器学习项目初始阶段的公司。大多数大型科技公司都拥有内部人才和工具,可以根据自己的需求定制数据基础架构,并充分利用开源和云服务。一个有趣的案例研究是 Twitter 使用内部部署和基于云的数据管理服务来运行机器学习工作负载。
竞争激烈的市场
企业AI数据管理市场
在最新一轮融资中,Databricks 报告了 6 亿美元的年度经常性收入 (ARR),高于 2020 年的 4.25 亿美元。这种令人兴奋的增长吸引了投资者向公司注入更多资金。Databricks 380 亿美元的估值主要是由于投资者押注该公司维持这种增长速度的能力。
但是,Databricks 及其同行必须克服一些挑战。
首先,市场竞争激烈。正如 Databricks 首席执行官 Ali Ghodsi告诉 TechCrunch 的那样,“[数据湖库是] 一个新类别,我们认为这个数据类别中会有很多供应商。所以这是一场土地掠夺。我们想快速建造它并完成这幅画。”
在某些市场中,公司利用网络效应或卓越的数据来锁定客户并保持对竞争对手的优势。在数据处理行业,市场动态是不同的。虽然 Databricks 提供了一种非常有用的技术,但它并不是其他公司无法复制的。由于该公司的技术建立在主要云供应商之上,因此客户转向竞争对手几乎没有障碍。
这意味着成功将在很大程度上取决于市场参与者的客户获取策略及其通过持续创新留住客户的能力。
增长还将在很大程度上取决于公司将获得的客户类型。Databricks 在最新一轮融资中宣布其拥有 5,000 名客户。由于该公司尚未申请 IPO,我们不知道其财务细节。但如果竞争有任何迹象,少数非常大的客户将占其收入的很大一部分。例如,C3.ai 2020 年收入的 36%来自贝克休斯和恩吉。根据Snowflake的S-1 文件,其 2020 年上半年近 30% 的收入来自其 3,000 名客户中的 153 名。
只要这些公司能够获得愿意花费大量资金的新大客户,它们就会增长。但一旦市场饱和,增长将趋于平稳。然后,他们将不得不向现有客户追加销售新服务,这是非常困难的,或者通过提供更具竞争力的价格来相互抢夺客户,这将降低收入。每个大客户的流失都将对这些公司的财务产生巨大影响。
市场的未来
市场的竞争性将对推动企业人工智能公司快速创新产生积极影响。但在某个时候,市场将面临来自大型科技公司的激烈竞争。
这三个云提供商的产品都可以演变成 Databricks 提供的那种服务。谷歌有 BigQuery,微软有 Azure Synapse,亚马逊有 Redshift。
一旦市场成熟,预计云巨头会采取行动来获得他们的份额。鉴于他们的财力雄厚,三巨头要么收购规模较小的数据管理公司,要么以更具竞争力的价格收购其客户。
这些公司特别关注的是微软,由于其企业协作工具,它已经在 Databricks 和其他公司蓬勃发展的非技术市场取得了很大的渗透。
微软也与Databricks 合作,相当数量的Databricks 的大客户都在Azure Databricks 平台上。微软有将合作伙伴关系转化为收购的历史。
在与媒体的讨论中,Ghodsi 不排除 IPO 的可能性。但如果他的公司最终成为微软的子公司,我不会感到惊讶。