容亿行研|大模型时代的投资思考

2024-12-18 12:06


闻茗萱


容亿投资执行董事,重点关注安全、工业软件、企业服务等领域,投资案例有珞安科技、博云BoCloud、城云科技、易筑网络、众智维科技、炎凰数据、数安云智等。





  • 回到商业的本质,AI本质上是要赋能行业,本轮大模型相比上一轮深度学习,更具有通用性,是下一个生产力的基座,能够赋能更多的应用场景,拥有更大规模更具想象力的潜在市场。

  • 大模型训练所需成本昂贵,是少数玩家的生意,C端是商业的核心,未来会涌现基于大模型的智能体APP应用,B端仍以端到端解决方案为主。

  • 大模型是赋能数字世界的数字资产,具身智能是赋能物理世界的实物资产,通过拥有具身智能的各类场景机器人,完成各项真实世界的各种场景任务,才能真正做到人的解放、生产效率的提升和释放。

CREATIVE TECHNOLOGY
一、人工智能历史沿革




1、从人工智能的三大流派说起

人工智能被正式提出后,不同学者有着不同的见解,由此逐渐形成了具有代表性的三大流派:连接主义学派(Brain),符号主义学派(Mind)、行为主义学派(Action)。行为主义学派研究Action属于“具身智能(Embodied Intelligence),连接主义与符号主义均属于“非具身智能”。人工智能的历史起始于1956年达莱茅斯会议,其发展历史可以分为三个阶段:

1956-2010年以前,以符号主义为主流:符号主义认为AI源于数理逻辑,注重知识表示和推理,旨在让机器像人一样理解和运用符号,主要的典型代表是专家系统,典型应用如IBM的Waston。

2010年-2017年,深度联接主义为主流:符号主义在相当长的时间内占据人工智能的主流位置,一直到2010年深度神经网络的兴起,联接主义才逐渐占上风,成为AI主流路线,联接主义主要是神经网络,通过模拟人脑神经元的连接方式来实现AI,强调从大量数据中学习并优化网络连接,通过神经元直接的联接和权重调整学习。

2018-至今,大模型引领的人工智能新一代浪潮:这一波火热的Transformer模型也是联接主义学派的代表,其中部分算法融合有符号主义的思想。行为主义强调交互,智能体通过与环境交互,通过信息感知、环境感知等进行学习,具身智能是行为主义的终极代表。



图表1:人工智能三大流派

2、上一波深度学习浪潮起源

上一波人工智能以深度学习DNN为主,开始于2006年,人工智能之父Hinton及其学生提出深度学习DNN算法,顶峰时期为2016年AlphaGo打败李世石,将人工智能行业推到最火热的顶峰。现在复盘,深度学习浪潮的起来主要有三个核心基础:

1、从算法模型向数据集范式的改变:李飞飞2006年计划做的ImageNet数据集,使人们意识到数据与算法同样重要。

2、算力支持:Nivia发布Tesla架构的GPU并推出CUDA平台。

3、深度学习DNN框架:Hinton提出深度学习DNN,并于2012年ImageNet大赛上提出颠覆性AlexNet算法,奠定深度学习算法的基础。

数据、算法、算力GPU三者共同将深度学习推向顶峰。从2006年Hinton及其学生提出深度学习DNN概念,2009年人工智能教母李飞飞推出ImageNet数据集,并开展ImageNet视觉识别挑战赛,到2012年Hinton及其学生在ImageNet大赛上提出颠覆性AlexNet算法,深度学习算法达到成熟,商汤的汤晓鸥教授团队2014年提出人脸识别算法准确率高达98.52%,具备真正意义上的人眼识别能力,其在2015年成立商汤科技,并在2015年在ImageNet大赛上成为国内首个夺冠企业。2016年Google的AlphaGo打败李世石代表着深度学习技术上的最高成就,接下来在图像识别、人脸识别、机器视觉领域逐渐形成成熟应用。


图表2:深度学习发展三大关键点

3、以机器视觉、语言识别为主导应用的上一代AI浪潮

李飞飞的ImageNet数据集以及视觉识别挑战赛,将数据+深度学习算法范式发挥到极致,在应用端将机器视觉产业带动起来,在人脸识别、工业视觉检测形成规模化应用。以机器视觉产业链示例,




机器视觉上游主要以硬件采集、算力为主,以安防场景驱动的摄像头需求爆发,形成安防三巨头海大宇(海康威视、大华股份、宇视)格局,在工业产线视觉检测方面,有近几年在科创板上市的以视觉系统或部件为主营的凌云光、奥比中光等;算力方面国内有GPU龙头海光信息;



机器视觉中游主要以算法平台为主,人脸识别是机器视觉中最成熟的应用,国内人脸识别产业催生出AI四小龙-商汤(HK0020)、旷世、依图、云从等;机器视觉同时在手机、自动驾驶等也都有规模应用,以手机端、车载端视觉算法解决方案为主营的虹软科技(688088);



机器视觉下游主要是赋能工业各行业,在工业产线检测领域有大量应用,涌现出一批机器视觉检测设备公司,如精测电子(300567)天准科技(688003)、矩子科技(300802、华兴源创(688001)等。


图表3:机器视觉产业链示例

机器视觉产业从2016年开始快速发展,近10年复合增速在25%以上,2023年机器视觉市场规模约185亿,10年增长了6.5倍。制造行业的AI视觉质量检测,是机器学习最成熟的应用场景之一。IDC预计,到2025年中国工业AI质检整体市场将达到62亿元,年均复合增长率为28.5%。

图表4:机器视觉市场规模


CREATIVE TECHNOLOGY
二、生成式人工智能
Transformer时代


本轮大模型爆于公众面前源于2022年11月30日 OpenAI发布的ChatGPT,其惊人的理解能力和上下文联系能力轰动全球,掀起了本轮Transformer为基础的GPT科技浪潮。

1、百模大战终将走向收敛

生成式GPT有别于之前AI的关键在于巨大参数量带来的涌现能力。大模型的“涌现”是指在模型训练参数和数量超过一定数值之后,模型突然出现了意想不到的能力,令AI很智能。谷歌、DeepMind、斯坦福的16位专家合作的论文《Emergent Abilities of Large Language Models》(大语言模型的涌现能力)论文里面指出,大语言模型在突破10的22次方量级后,智慧能力出现了质的飞跃。

国内百模大战,同质化严重。自从2023年LLaMA开源之后,国内的大模型如雨后春笋,不到1年的时间已经有百家以上,目前已经备案的大模型有117家,还有一大批排队备案的在路上,各互联网、IT大厂都有自己的大模型,以及一批融完资的大模型创业公司,根据点点数据下载量统计,下载量靠前的模型有字节的豆包、昆仑万维的天工AI、月之暗面的Kimi、百度的文心一言、科大讯飞的讯飞星火、阿里巴巴的通义大模型等。前一段刚过去的高考也有人用大模型评测了一遍,考试前五名的有GPT-4o、字节豆包、文心4.0、百小应、通义千问。这两天举办的世界人工智能大会上,各厂家大模型均有展示,应用基本千篇一律,核心能力也大同小异。

图表5:大模型2024年高考全科目评测

大模型训练所需成本昂贵,是少数玩家的生意,C端是商业的核心。大模型的核心在于训练数据量、模型参数量、训练迭代次数,因此大模型能力的提升也主要通过这三种方式。OpenAI的GPT模型参量从1.0时代的1.17亿提升到GPT-4时的1.8万亿参量,模型代际之间参数量呈现指数级增长,OpenAI在GPT-4的训练中使用了大约2.5万个A100芯片,在90-100天的时间内进行了约32-36%MFU,如果在云中的成本为每小时1美元A100芯片,仅该次训练成本约为6300万美元;推理方面,在使用128个A100 GPU进行推理的情况下,8K版本GPT-4的推理成本为每1000个token 0.0049美分,像meta的大模型 LLaMA 使用了包含 1.4 万亿个 token 的训练数据集。微软花费上万张英伟达A100芯片打造超算平台,用于CHatGPT和必应提供算力在60多个数据中心部署了几十万张GPU,用于ChatGPT推理。大模型的训练需要几亿打底,再算上未来海量用户的推理需求,需要的算力成本可能就是百亿量级了。而目前英伟达算力供货紧张且价格高昂,同时国内GPU产能尚未起来,因此在模型基本能力相差不多的情况下,国内大模型之争可能在于算力之争,谁能为C端大规模推理应用提供足够的算力,谁就能占住用户资源。基础大模型的商业出路在C端,谁能占住C端,谁就拥有了下一代流量入口。
2、未来会涌现基于大模型的智能体APP应用,B端仍以端到端解决方案为主

海外AI创业项目集中在应用层,其中2B类应用最多,模型层(OpenAI、Anthropic)是少数玩家的游戏。从海外AI创业公司融资事件数量来看, 2B类应用获得的融资次数最多,占比近49%,其次是2C类应用和基础设施,占比均为20%左右,多模态占比约为8%,大语言模型融资次数占比约为3%。

图表6:海外人工智能创业领域分布

数据来源:Crunchbase、烯牛、统计区间为2023年1-10月,时间更新至2023年10月29日

海外前五大初创企业数量最多的领域分别为:文本在市场营销的应用、音频、客服机器人、图像、MLOps平台;前五大初创企业融资金额:MLOps平台、客服机器人、音频、数字人&配音、图像等。

图表7;海外AI初创企业数量汇总分类

回到商业的本质,AI本质上是要赋能行业,本轮大模型相比上一轮深度学习,更具有通用性,是下一个生产力的基座,能够赋能更多的应用场景。当前大模型按照其场景可以分为知识工作型、企业业务型、创意娱乐类。

从商业模式看,ToC端,基础大模型将成为一个超级OS的定位,未来会涌现出基于大模型底座的智能体APP,这些app类似于上一代基于移动互联网底座的微信、小红书、b站等,在未来基于大模型也会出现一批智能体应用app,成为大模型触达C端的入口,承载着各C端用户;

ToB端,仍是端到端的行业解决方案为主,B端客户买单方式和买单意愿没有发生变化,还是看谁能帮其解决场景中的问题,必然要求AI厂商端到端的解决能力,那从客户预算规模排序,营销预算是最大的也是最容易落地的,其次是优化其生产运营成本。容亿投资今年投资了一家AIGC龙头企业数珩科技,其就是帮助客户解决营销侧的问题,当前一方面利用GPT解决营销内容,如AI生图、生文;另一方面解决客户营销获客的效率,如门店智能工牌,帮助客户梳理分析客户类型以及培训员工营销技巧,以帮助客户缩短成单周期、提升客户转化率。




  结语

远期来看,具身智能的应用无论是文生文,还是文生图和文生视频,AIGC的场景更多落地在虚拟数字资产的高效处理上,也即当前大模型的能力是辅助人处理虚拟数字资产的能力。大模型的能力是代替或者辅助人在虚拟世界里与机器互动,劳动成果主要以数字资产为主,比如代码、视频图像设计、写文章等。然而其不能解决人与真实世界互动的问题,不能真正解放人的双手,在真实世界中需要一个智能体,来辅助或者代替人与真实世界的交互,未来具身智能将解决人与真实世界的交互。大模型相当于具身智能的大脑,通过拥有具身智能的各类场景机器人,更好地代替人,完成各项真实世界的各种场景任务,才能真正做到人的解放、生产效率的提升和释放。

图表8:人工智能两大类别








END

长三角5G制造基地

中国杭州5G创新谷

依托核心团队深厚的产业背景和产业资源,容亿投资致力于成为聚焦战略新兴产业的领军投资机构。
容亿投资专注硬科技和数字科技两大领域,集丰富的产业、人才和政府等资源,助力创业企业快速成长为行业龙头。
容亿投资,让创业更容易。
商业计划书,请投递至邮箱:BP@winreal.vc,我们将仔细阅读,并尽快与您取得联系。