容亿行研|具身智能与人形机器人在AGI时代的融合与突破

2024-12-18 12:06


何远迪

容亿投资总监,重点关注人形机器人、具身智能、大模型、人工智能、智能硬件、消费电子、科技消费、AR&VR元宇宙等硬件新品类领域。

刘宏春

容亿投资创始合伙人,重点关注芯片传感器、硬件新品、新能源等硬科技领域。



  • LLM多模态大模型的发展给机器人产业带来新一轮的机遇,通用人工智能(AGI)给人形机器人带来巨大变革。这些大模型能够助力人形机器人拆解任务,并将语义理解能力、推理生成能力、感知思考决策能力引入机器人领域,大模型的影响正在逐渐渗透到各行各业。

  • 具身智能是多模态大模型演进的重要趋势,也是人形机器人追求的终极目标。人形机器人是具身智能的最佳载体,是机器人领域的AI Agent,机器人与具身智能将进一步融合。

  • 人形机器人领域会出现垂直方向的具身智能小模型。大模型与机器人的融合是一个难点,借鉴现有的大模型技术,开发一个小模型甚至中等模型可以让通用人形机器人技术层面迈过障碍。

  • 人形机器人的移动能力、运动能力、人形本体制造能力已处于初步成熟阶段,而上半身手、臂、眼脑的通用任务泛化操作(Generalization Manipulation)能力仍是产业链的瓶颈,这也是人形机器人下一步亟需突破点,也是最困难、最核心、商业价值最大的部分。

  • 人形机器人即将催生新的百亿美元赛道,将改进丰富传统智能制造场景,促进新兴服务市场的形成。

容亿投资

点击视频观看国内首代泛化具身大模型机器人

【银河通用Galbot】

01
人形机器人&具身智能的诞生与发展

人形机器人( Humanoid robot )是一种仿生机器人,外形和人类相似,能够完成各种任务。通常由电机、传感器、计算机等组成,可以通过编程来控制它们的动作和行为。

具身智能(Embodied AI)是一种基于物理身体进行感知和行动的智能系统,通过智能体与环境的交互获取信息、理解问题、做出决策并实现行动,产生智能行为和适应性。

人形机器人起步于20世纪70年代,技术持续迭代,其发展主要分四个阶段:

(1)初步行走阶段:以日本早稻田大学打造的WABOT-1为代表;

(2)能力破冰阶段:以本田人形机器人等为代表的系统高度集成时代;

(3)技术突破阶段:以强复合运动能力为特征的,突出代表者为波士顿动力Atlas;

4)产业化落地阶段:第四阶段是以特斯拉Optimus机器人为代表,该阶段尚处于发展前期。


随着科技赋能发展,人形机器人有望成为“具身智能”的理想载体。具身智能是指一种智能系统或机器能够通过感知和交互与环境进行实时互动的能力。

随着全球高新技术尤其是 AI领域的整体快速突破,以ChatGPT为代表的大模型将进一步优化对人形机器人的控制技术,由此人形机器人有望成为“具身智能”的理想形态。

02
人工智能向通用型AGI快速演进,AGI的发展带来产业巨大变革


人工智能的发展历程主要为三个阶段包括分析式AI、生成式AI以及正在逐步实现的通用型人工智能AGI。

分析式AI主要侧重于从数据中学习并进行模式识别,以支持决策制定,这类AI在图像识别、语音处理和推荐系统中表现出色,它们通过分析能够执行任何智能任务,具有类似人类的广泛智能。

生成式AI是基于算法、模型、规则生成文本、图片、声音、视频、代码等内容的技术,这种技术能够针对用户需求,依托事先训练好的多模态基础大模型等,利用用户输入的相关资料,生成具有一定逻辑性和连贯性的内容。

通用型人工智能AGI的核心在于其“具身性”,即AI系统能够通过物理形态与世界互动,具备感知、推理、学习和自主决策的能力。这种智能体将能够理解复杂的环境,执行复杂的任务,并在真实世界中实现自我学习和适应。

迈向AGI具身智能的过程中面临着诸多挑战,如设计能够处理多模态输入的算法、确保AI系统的决策过程透明和可解释,以及如何确保AI系统的行为符合伦理和安全标准。此外,AGI的实现还需要强大的计算能力、先进的机器学习模型和大量的训练数据。AGI具身智能的发展给人形机器人带来产业巨大变革。

随着技术的不断进步,AGI具身智能将逐渐从概念走向现实,成为推动未来社会发展的关键力量。

03
GPT LLM大模型的发展让人形机器人拥有了可以思考的大脑


大模型的发展‌推动了人形机器人的智能化和商业化落地,大模型通过提供高层级的视觉和语言智能,‌使人形机器人能够理解周围环境,‌流畅地与人类交谈,‌理解人类的需求并完成具体行动。

大模型加速了人形机器人向具身智能方向的发展,拓展了单一智能为融合智能,‌促进了机器人完成多样性与通用性的任务,‌使得机器人本身就能结合其感知到的多模态数据实现智能化决策。同时大模型推动了机器人在自主学习和适应能力上的进步,通过不断的数据训练和迭代优化,机器人可以更快速地学习新知识和适应新场景,从而提升其在复杂环境中的表现和应用能力。

大模型增强了人形机器人的自主性和智能化,提供更深入的人机交互,具身智能技术使得机器人能够更加自主地感知和理解环境,具备更高级别的决策能力和执行能力,不仅仅是单向指令的执行者,而是能够理解和回应人类的意图和情感。这种智能化可以带来制造业自动化的进一步提升,例如在自动化生产线上执行复杂任务,减少人为干预和错误,提高生产效率和质量,也可以在教育领域实现机器人根据学生的反馈调整教学策略,在医疗领域,机器人在手术中与医生实时协作。



具身智能的通用泛化操作能力(Generalization Manipulation)更是一种迁移学习能力,把从过去的经验中学习到的知识和策略应用到全新的领域,实现了举一反三。以GPT为代表的大模型是迈向通用人工智能AGI的重要标志,大模型的触角正在进入各行各业;大模型能够助力人形机器人拆解任务,将语义理解能力、推理生成能力、感知思考决策能力引入人形机器人领域,相当于给机器人换个可思考理解的人类大脑。





04
具身智能是多模态大模型演进的重要趋势,LLM提供机器人感知与交互新范式

具备控制、感知、执行能力的AI Agent是大模型落地的重要形式,人形机器人是机器人领域典型的AI Agent,人形机器人是大模型实现最好的硬件载体,具身智能代表了人工智能领域中多模态大模型发展的重要趋势。这一趋势强调智能系统与物理世界的柔顺交互,其中智能体不仅仅是数据处理的实体,而是通过感知和行动与环境进行实时互动的实体。

首先需要实现本体和智能体的结合,本体的设计需要考虑运动能力、感知能力以及与环境的交互能力;多模态数据的融合,具身智能系统需要处理和理解来自不同感官的数据,如视觉、听觉和触觉等,这要求研究者开发出能够有效融合多模态数据的算法和模型。

其次要学习和进化架构,具身智能系统需要具备学习和进化的能力,以便在不断变化的环境中适应和优化其行为。这涉及到强化学习、模仿学习等多种机器学习方法。为了安全和成本效益,通常在仿真环境中训练和测试具身智能系统,而将仿真环境中的学习成果迁移到现实世界仍然是面临诸多挑战。

最后,具身智能的发展需要硬件和软件的紧密结合,硬件的进步为智能体提供了更好的感知和执行能力,而软件的创新则使得智能体能够更有效地处理信息和做出决策。随着技术的不断进步,具身智能正逐渐从概念走向现实,成为推动人工智能领域发展的重要力量。


05
全球顶尖科技巨头纷纷下场布局,机器人与具身智能将进一步融合突破


人形机器人被视为具身智能的最佳载体,它能模仿人类形态和功能,人形机器人模仿人类的外形和运动方式,这使得它们能够适应人类生活环境和使用相同的工具,从而在家庭、医疗、教育、服务业等多个领域中应用。

人形机器人能够通过视觉、听觉、触觉等多种感官与环境进行多模态的交互,这种多模态交互能力使得它们能够更自然地与人类沟通和协作。人形机器人通常具备高度的灵活性和适应性,能够在复杂和变化的环境中执行任务,如灾难救援、探索未知环境等。通过机器学习和人工智能算法,人形机器人能够从经验中学习,不断优化自己的行为和决策能力,以更好地适应环境和任务需求。由于外形和行为的类人特征,人形机器人更容易被人类社会接受,这有助于它们在人类生活和工作环境中的融入和应用。人形机器人不仅是具身智能理念的体现,也是实现这一理念的关键技术平台,它们的发展将对人工智能的未来产生深远影响。

1、Figure 01证实人形机器人将成为AI最佳的物理载体,OpenAI VLM大模型赋能Figure 01逻辑思考与学习能力。

Figure 01是由Figure公司开发的人形机器人,它代表了具身智能领域的一项重要进展。人形机器人集成了OpenAI的大型语言模型,使其能够与人类进行深入的对话交流,并且能够理解场景中的内容以及对声音做出反应。Figure 01的设计理念是创建一个可以模仿人类行为的机器人,这使得它在医疗保健、教育、服务业等多个领域都有潜在的应用价值。Figure 01的技术规格和设计特点包括其体型、载重能力、移动速度、续航时间以及智能交互能力。

Figure 01结合OpenA的大型语言模型和先进的对话系统、多模态输入技术和强大的认知能力,实现了与人类的全面沟通。它能够理解其所处环境中的情况,并且能够对语音指令作出响应,实现了语音到语音的推理能力。这种能力不仅展示了其对周围环境的感知能力,还体现了它通过听觉输入进行理解和反馈的强大交互能力。

Figure01的变化主要受益于OpenAI训练的视觉语言模型和端到端神经网络,Figure01已经拥有OpenAI大模型提供的视觉推理和语言理解能力,以及Figure的神经网络提供的快速、低水平、灵巧的机器人动作。Figure01语言处理流程是将机器人摄像头捕获的图像和麦克风捕获的语言转录成文本输入到由OpenAI训练的大模型中,大模型可以理解图像和文本并听过文本转语音的形式向人类响应。Figure01行为处理流程,Figure01所有行为均由神经网络可见电机变压器策略驱动,将像素直接映射到操作。Figure 01的出现预示着未来5-10年内科技和社会的巨大变革,它通过整合多种先进技术,成为了一个极具潜力的人形机器人。

2、特斯拉人形机器人性能不断迭代,马斯克表示,人形机器人将成为工业主力,数量有望超越人类,预计达到100亿-200亿美元

特斯拉在人形机器人技术的开发上有着明确的计划和宏伟的目标。特斯拉的首席执行官埃隆·马斯克(Elon Musk)将人形机器人视为公司未来的关键产品,甚至认为它可能比汽车业务更重要。特斯拉的人形机器人项目名为 Optimus,旨在创建一个通用的、双足的、自治的类人机器人,能够执行对人类来说不安全、重复或无聊的任务。该项目利用了特斯拉在自动驾驶技术上的先进人工智能,包括视觉和规划能力。Optimus 机器人采用了特斯拉的自动驾驶软件,并对其进行了调整,以适应新的机器人身体和环境。特斯拉已经在多个场合展示了Optimus机器人的原型,包括在2022年的AI Day上展示了能够行走的原型,并在2023年展示了更先进的第二代原型。马斯克在2024年的年度股东大会上表示,特斯拉计划在2025年开始限量生产Optimus,并在公司自己的工厂中测试这些机器人。他还预测,Optimus 可能会使特斯拉的市值达到25万亿美元。

特斯拉在人形机器人领域的计划是全面且雄心勃勃的,公司正在积极推进 Optimus项目的开发,并计划在未来几年内实现量产和商业化。随着技术的不断进步和市场的扩大,特斯拉的人形机器人有望在未来的自动化和智能化领域发挥重要作用。

3、Boston Dynamics放弃液压方案,全新电驱动机器人Atlas亮相

波士顿动力长期专注于制造具有先进机动性、灵活性和智能性的机器人。2004年,波士顿动力开发出第一台在实验室以外行走的腿足式机器人BIGDOG,此后又开发了RHEX、SANDFLEA、LS3、WILDCAT、SPOT CLASSIC、HANDLE、Atlas 多个机器人,在运动控制领域优势明显,成本高昂尚未实现商业化。2024年5月,波士顿动力(Boston Dynamics)发布了《再见,液压Atlas》视频,正式宣告其研发的液压驱动双足人形机器人Atlas退役。但在发布不到24个小时内,波士顿动力全电动Atlas机器人就正式亮相。

4、英伟达已拥有人形机器人开发和发展必要的技术,积极构建具身智能生态

英伟达(NVIDIA)在人形机器人技术的开发和储备方面扮演着重要角色,其技术积累和战略布局显示出其在这一领域的深厚实力。英伟达提供了一个基于Omniverse平台构建的机器人仿真参考应用Isaac Sim,这使得开发者能够在一个逼真的虚拟环境中测试和训练人形机器人,从而加速开发流程并减少实际测试的风险和成本。Jetson Thor是一个专为人形机器人设计的计算机平台,具备高性能的AI处理能力,能够执行复杂的任务并安全、自然地与人和机器交互。英伟达推出了NIM微服务,这些服务通过提供预构建的容器,支持机器人仿真和学习,使得开发者能够快速部署和测试机器人模型。英伟达发布了Project GR00T,这是一个多模态人形机器人通用基础模型,旨在进一步推动其在机器人和具身智能方面的突破。英伟达与多家领先的人形机器人公司如Boston Dynamics、1X Technologies、Figure AI等建立了合作关系,共同推进人形机器人技术的发展。
英伟达正在积极构建一个全面的生态系统,以支持人形机器人技术的发展,并为未来的智能机器人时代做好准备。通过这些技术储备和战略布局,英伟达正推动人形机器人技术向更高级别的自主性和智能性迈进。

06

人形机器人将进一步丰富传统智能制造场景,促进新兴家庭服务市场形成

人形机器人作为智能制造领域的一项革命性技术,预计将进一步丰富和扩展传统智能制造的场景。它们不仅能够执行重复性高、精度要求严格的任务,还能够在复杂环境中进行灵活操作,提供更加个性化和柔性化的制造解决方案。

在智能制造领域,人形机器人的应用前景广阔,如:人形机器人可以在自动化生产线上执行装配、检测、搬运等任务,提高生产效率和质量,其的高度灵活性和精细操作能力,能够处理一些传统工业机器人难以完成的复杂操作。同时人形机器人能够与人类工人协同工作,执行需要人类智慧和机器人耐力相结合的任务。随着技术的进步,人形机器人的智能化水平将得到进一步提升,它们将更加具备自主学习能力、感知能力、决策能力,能够更好地适应复杂多变的环境和任务。预计在未来几年内,人形机器人将在智能制造领域实现更广泛的应用,推动制造业向更高层次的自动化和智能化发展。

Multimodal LLM人形机器人 VS 传统工业机器人

具备具身智能的人形机器人可以模仿人类的外形和行为能力,以及更高级的感知交互系统。它们能够无缝使用人类基础设施和工具,融入人类社会,通过AI赋能,实现自然的语言交互与行为动作。这种人形机器人在结构设计、硬件构成、控制算法、核心性能要求以及零部件选择方面与传统工业机器人有很大的不同。例如,人形机器人的关节数量通常在40个以上,而传统工业机器人的关节数量一般在6个左右。人形机器人的每个关节通常需要一台伺服电机,对于电机的高爆发力矩响应和稳定力矩输出提出了极高的要求。

在应用场景上,人形机器人因其灵活性和交互能力,适用于需要精细操作和复杂环境适应的任务,如家庭服务、医疗辅助、灾难救援等。它们可以执行一些对精度和灵活性要求较高的工作,例如汽车门锁质检、安全带检测、车灯盖板质检等。此外,人形机器人在智能制造场景下,能够自主协同完成工具收纳任务,展现出精巧的身体控制能力。

相比之下,传统工业机器人通常在结构化环境中执行重复性高、力量要求大的任务,如汽车生产线上的焊接、喷漆、组装等。它们往往被隔离使用,以确保安全,且不具备与人类直接交互的能力。在技术特点上,人形机器人需要更复杂的控制算法和传感器系统来实现平衡、行走、抓取等动作。而传统工业机器人则侧重于精确和重复性,其控制系统和运动规划相对简单。总之,人形机器人代表着AI技术与机器人技术的深度融合,是实体通用人工智能系统的典型代表,有望成为引领产业数字化发展、智能化升级的新质生产力。而传统工业机器人则继续在制造业等领域发挥其高效、稳定的特点。随着技术的发展,两者的应用场景和功能都在不断扩展和丰富。



随着人口老龄化和单身人口的增加,人形机器人有望成为家庭中的伴侣和助手,提供陪伴、教育、娱乐等服务。人形机器人在医疗辅助、养老服务等领域的应用,也将为社会带来积极影响。在商业服务领域,人形机器人可以作为服务员、接待员等角色,提供迎宾、点餐、咨询等服务。例如,优必选科技的Walker S系列人形机器人已在汽车工厂中进行智能搬运、分拣、质检等任务,展示了其在工业领域的应用潜力。人形机器人在教育领域也展现出独特的价值。它们可以作为教学辅助工具,帮助学生更好地理解复杂的概念和原理,提高学习效率和兴趣。

随着人形机器人技术的不断成熟和成本的降低,预计其在服务市场的渗透率将逐步提高,成为推动新兴服务市场发展的重要力量。

07
超百亿美元的大赛道


优必选招股说明书显示,预期2026年全球人形机器人解决方案市场规模将达到80亿美元。高盛最新预测,人形机器人市场2035年达到380亿美元,2035年人形机器人的出货量将达140万台。马斯克也认为,人形机器人将会是今后特斯拉主要的长期价值来源。如果人形机器人和人的比例在2比1左右,那么人们对机器人的需求量可能是100亿至200亿个,远超电动车的数量。


08
发展所面临的困难与挑战

大规模数据Scaling Law需求与训练困难:具身智能的发展高度依赖大规模的数据用于训练和测试。然而,收集具身智能所需的真实世界交互数据非常困难且昂贵,特别是在涉及复杂物理交互的场景中。容亿投资项目:银河通用通过仿真数据集训练机器人,实现了真实世界关节类物体的泛化操作。

实时计算与处理能力:为了使机器人能快速响应环境变化,必须具备极高的计算效率,特别是在涉及多感官数据处理、复杂运动控制、和实时决策时。现有的计算资源和算法效率常常不足以应对复杂的任务需求,尤其是在资源受限的移动平台或嵌入式系统中。人形机器人对大模型有较大的开销依赖,大模型的反馈时间太长,导致机器人执行速度慢效率低下,无法真正的实时和用户进行无缝交互。

感知与环境交互复杂性:具身智能需要处理来自多种感官的输入,如视觉、听觉、触觉等。环境中的数据多样且噪声较多,尤其是在动态和不确定的环境中,传感器可能会提供不准确或不完整的信息。这对机器人处理感知数据的能力提出了极高的要求,例如物体识别、动作规划等任务都必须依赖准确的感知,而这在现实环境中非常复杂。往往通用泛化的准确率较低,通常更换新场景后无法准确有效的识别人类的指令,无法准确理解并执行人类的指令。

复杂的运动控制与平衡:人形机器人最显著的特点是它们的类人外形和双足行走能力。然而,双足行走对机器人来说是极具挑战性的任务。与轮式机器人不同,双足行走涉及精确的平衡控制,尤其是在行走、跑步、转弯、或应对不平坦地形时。为了保持稳定,机器人需要在极短时间内进行快速的动作调整,模仿人类的重心控制和协调。现有的运动控制算法虽有所进步,但与人类的运动灵活性和稳定性相比,仍然有很大的差距。容亿投资项目:宇树科技在运动控制与平衡方面的成果为世人嘱目。

自主决策与任务规划:自主决策是人形机器人必须具备的重要能力之一。它们需要能够在变化的环境中自主做出复杂决策,并规划相应的任务。例如,机器人在面对一系列行动选项时,必须能够评估每个行动的风险、收益和可能性,从而选择最优方案。现有的人工智能和强化学习算法已经在某些特定任务中表现良好,但在人类工作和生活的多样性和复杂性面前,机器人仍然缺乏足够的泛化能力,难以应对不确定性或未曾遇到的任务。


  总结:

在通用型人工智能AGI时代,具身智能与人形机器人的融合将推动智能体从纯粹的认知能力向全面的感知、行动和决策转变。具身智能通过机器人与物理环境的直接交互,使其能够理解和适应复杂的现实世界,提升了机器人的自主性和灵活性。而人形机器人作为具身智能的最佳载体,具有人类般的外形和运动能力,可以更自然地与人类互动,适应多样化的任务场景。

两者的结合不仅能够实现复杂环境中的精确感知、灵活运动和智能决策,还为多模态交互、人机协同工作提供了新的路径。具身智能与人形机器人将有望在AGI时代成为通用智能的代表,广泛应用于工业、家庭、医疗等领域,实现真正意义上的智能协作与服务。




容亿连续两轮重点投资项目:宇树科技已经成为世界知名机器人公司,在人形机器人具身智能赛道领域绝对龙头的地位,公司于2023年率先研发出国内第一台能跑的全尺寸通用人形机器人,并于今年发布了可量产人形机器人,受到全球广泛关注和报道。



容亿已投项目银河通用聚焦于实现机器人具身智能,通过具身模型解决了机器人的双臂、眼睛和大脑的配合,实现了机器人的自然语言交互、泛化物体识别、抓取与操作、双臂灵巧手操作控制等,完成了机器人的通用泛化任务操作,真正的替代人类处理繁杂的任务和工作。

容亿投资认为,具身智能将引领下一代人工智能的发展方向,推动机器人从单一功能向多样化应用的转变。通过持续注资和资源整合,容亿投资将助力这一领域的技术加速落地,开拓工商业、服务业等多领域的应用前景,推动新质生产力在全球范围内的广泛普及与变革。

容亿投资在具身智能和人形机器人领域将持续加强战略布局,坚定看好这一领域的未来发展潜力。容亿投资坚持做耐心资本,通过长期投资支持创新企业在感知、交互、运动控制等核心技术上的突破,加速人形机器人与智能系统的深度融合。



END

长三角5G制造基地

中国杭州5G创新谷

依托核心团队深厚的产业背景和产业资源,容亿投资致力于成为聚焦科技产业的领军投资机构。
容亿投资专注硬科技和数字科技两大领域,集丰富的产业、人才和政府等资源,助力创业企业快速成长为行业龙头。
容亿投资,让创业更容易。
商业计划书,请投递至邮箱:BP@winreal.vc,我们将仔细阅读,并尽快与您取得联系。