星环科技:手握大模型与工具链,开创AI新篇章
近日英伟达的财报再次引爆市场对ChatGPT产业链的关注。
毫无疑问,当前是AI的新时代。当中,企业以何种方式参与这场盛宴,是个十分关键的问题。
目前,市场上普遍存在两条路径——
(资料图片仅供参考)
第一条十分清晰:“百模大战”如火如荼,各行各业、各科技公司都在推出通用的或垂直的ChatGPT大模型,大厂们大多选择了这一道路;第二条道路,是专注于上游基础设施产业链,为大模型提供算力、数据、算法上的支持,这正是英伟达选择担任的角色。
目前来看,很难判定说哪条更优。做大模型如同“挖金子”,拥有巨大的潜力,但同时充满了不知是否能成功的不确定性;专注上游产业链类似于卖铲子,拥有更高的确定性,但也有人认为,其想象空间未及大模型性感。
作为国产大数据基础软件第一股的星环科技,给出了第三条道路。
近日,在5月26日的“向星力·未来数据技术峰会(FDTC)”上,星环科技发布了业界首创的金融大模型“无涯”,以及大数据分析大模型SoLar“求索”;还展示了在数据技术与大模型工具方面的最新探索。
星环科技既是“淘金者”,又是“卖铲人”。
星环科技CEO孙元浩表示,“我们基本策略是提供工具让我们的客户、合作伙伴能以更低成本、更高效率开发出自己的模型。”
ChatGPT核心环节
ChatGPT的本质,是通过数据、算法、算力求得的大模型。模型的大小通常取决于它的参数数量。一般来说,参数越多,模型就越大,在复杂任务上就表现得越好。因此参数增加是十分确定的趋势,数据处理基础设施也相应地成为ChatGPT核心环节。
以OpenAI开发的GPT大型语言模型的发展为例。GPT-1总共使用了大约3700万个参数;GPT-2模型的训练数据来源更加广泛,最大版本的模型有15亿个参数;GPT-3的训练数据包括了互联网上的大部分公开可用的文本,最大版本的模型参数数量增加到1750亿;分析师普遍预测GPT-4的参数量至少接近万亿级。
可以看出,在大模型的发展过程中,参数数量和训练数据量正遵循指数型增长。这决定在模型训练和部署的过程中需要更大的计算资源,还需要更多、更复杂的数据处理技术——前者的机会已被多次提及,后者的机遇却往往被市场忽略。
尤其值得注意的是,不同于算力产业链参与者众多、硬件利润较低,由于具备较高的技术壁垒,国产数据软件产业链的竞争格局较为良好。
就以星环科技为例,公司不仅是国内领先的企业级大数据基础软件开发商,围绕数据的集成、存储、治理、建模、分析、挖掘和流通等数据全生命周期提供基础软件及服务;还是少有的坚持独立自主分布式数据库的公司,具备较高的稀缺性。
提供一站式大模型工具链
星环科技围绕数量处理的智能化、多模态、平民化的目的发布了诸多新品。目前,公司打造了星环大数据基础平TDH+星环数据云平台TDC、星环分布式交易型数据库KunDB、分析型数据库ArgoDB、分布式图数据库StellarDB、搜索引擎Scope、时序数据库TimeLyre、数据科学平台SophonBase等产品。
其中,在向星力·未来数据技术峰会上,星环科技展示了Sophon LLMOps。这是在公司原有的Sophon MLOps平台基础之上,针对大语言模型及其衍生数据、模型、应用问题进行相应功能增强后的大模型开发运维一站式工具链。Sophon LLMOps具备三大能力:样本仓库能力、模型运维管理能力以及大语言模型和其他任务的编排和调度和上线能力。
必须提到的是,在星环科技特有优势的基础上,SophonLLMOps提供了分布式的训练框架。分布式框架不仅能满足用户在多台机器、在每台机器多张卡之上进行大模型分布式训练;还能灵活地扩张服务器,及时满足数据量和计算需求的变化。并且分布式数据库还能并行执行多个任务,加速了数据查询和处理的速度,从而使大模型的训练和推理更加高效。
“通过提供这样完整的工具链,再跟星环的大数据平台结合起来,能够让每家企业或者每个行业都能打造自己的专属大模型。”孙元浩称, “这证明我们的工具链在实践中是可行的,并且具有商业价值。”
推出金融大模型与大数据分析大模型
据悉,星环科技还计划推出两个自研行业垂类大模型。
其中,金融大模型“无涯”拥有发布百亿及千亿参数两个版本,是一款面向金融量化领域、超大规模参数的生成式大语言模型。在深耕行业的过程中,星环科技服务了大量金融行业客户,得以积累了上百万金融专业领域的语料。在此基础上,“无涯”具备对包括基本面、技术面、消息面在内的金融通识领域的准确理解能力,能构建包括政策、舆情、ESG、风险、量价、产业链在内的六类因子库。“无涯”在现场演示中,高效地“回答”金融量化领域的各类问题。
另一个大模型“求索”立足于大数据分析,能实现自然语言转SQL,并大幅降低使用门槛。在“求索”大模型担任数据查询和分析的智能助手的情况下,非专业用户在不需要学习和掌握数据库编程语言的前提下,就可以通过自然语言自由地按需查询数据。
这两个大模型的共同特征,是与星环科技的技术能力圈和落地场景圈形成了很大协同,因而具备较高的确定性。
“求索”作为大数据分析模型,能进一步完善公司现有的产品矩阵,成为星环科技数据处理工具中极其重要的构成部分。至于“无涯”瞄准的是金融领域,这是星环科技的“舒适区”与能力圈。星环科技覆盖了超千家的客户,金融、政府正是其最重要的两大下游。
结语
星环科技似乎已经做好了双全的准备——一手握大模型,一手握工具链。在AI变革的东风之中,星环科技有望再次延伸业务边界,步入新的成长期。
关键词: