商汤绝影智能车舱副总裁许亮：我们能同时支持20多个千亿大模型的训练

文/普子胥

12月23日，第十届以“智能涌现·发现未来”为主题的网易未来大会，22日在杭州正式启动。本次大会由杭州市人民政府和网易公司联合主办，杭州市经济和信息化局、杭州市商务局、杭州市滨江区人民政府、北京网易传媒有限公司及网易（杭州）网络有限公司承办。

本届网易未来大会包括主论坛、AGI论坛、汽车科技论坛、灵感论坛、思想之夜、未来局等环节，大会广邀顶级学者、产业专家和行业精英一道，为您作答未来科技、人文艺术、时代个人在下一个十年无限精彩变化。

在12月23日汽车科技论坛上，商汤绝影智能车舱副总裁许亮发表了《AGI引领的未来智能座舱》主题演讲。许亮表示，过去十年在商汤主导的四4大板块：智慧城市、智慧商业、智慧生活、智能汽车厂，人工智能都得到了大量的运用，已经商业化量产的模型大概超过3万多个，用于各行各业。这些模型最大的特征都是解决了很多单一的任务，这也给人工智能全面落地也带来面临了挑战：“一由于定制产生的研发周期拉长以及，二是我们自己本身在模型研发过程中产生的成本。”

许亮表示，不过随着GPT技术的出生应用，产生了AI进入全新发展新的范式，整个行业都逐步在开始AGI时代做大量的转型。当下商汤已经有超过3万块GPU，整个算力已经达到6500P，。截至目前，能同时支持20多个超过千亿参数大模型的训练，这也是很好的AI算力生态的联盟机制。

许亮谈到，作为汽车智能化的核心的供应商，商汤绝影最重要解决的是三件事：智能驾驶、智能座舱、AI云平台。围绕这三件事，许亮分享了一系列最近技术进展，并就于AGI时代来临大模型技术研发的最新发展趋势，以及座舱接下来面临的一些升级机遇进了探讨。

以下为商汤绝影智能车舱副总裁许亮演讲实录：

今天在这里和大家介绍分享一下整个商汤在大模型，以及在智能汽车这个领域内对大模型应用的思考。

首先我们看一下整个AI的发展历程。回顾过去十年人工智能的发展，十年前它是以人工智能突破人的肉眼、人的认知的工业红线为起点。2014年商汤首次在面部识别领域，突破肉眼的识别率，诞生了商汤科技，从此以后一批AI的应用陆续落地。但它同时也有一个问题，在过程当中需要针对每一个任务，对模型进行针对性的训练。

商汤成立于2014年，成立前我们参加过一个重要的比赛（ImageNet），我们第一次把机器的人脸识别技术用机器的方式突破了人眼的精度，突破了一个工业的红线，得到一个大面积的应用。

大家可以看到从2012年开始到2022年这一段时间内，我们在整个商汤聚焦的主导的4大板块：智慧城市、智慧商业、智慧生活、智能汽车，人工智能都得到大量的运用。我们也做过一些测算，过去10年里，商汤已经商业化量产的模型超过大概3万多个，用于各行各业。

这些模型最大的特征都是解决了单一的任务，这也进而给人工智能的全面落地带来挑战：“由于定制产生的研发周期拉长以及模型研发过程中产生的成本。”这些模型最大的特征都是解决了很多单一的任务，所以对于一个研发和产业化落地来讲，它面临的挑战：1.由于定制产生的研发周期拉长；2.我们自己本身在模型研发过程中产生的成本。2022年底，由于随着GPT技术的出生铺开，产生了AI新的范式，整个行业都开始AGI时代做大量的转型。在这个过程中我们也看到一个巨大的机会，利用一个或者多个大模型架构，能够去解决更多开放式的任务，这也帮助整个行业找到了很多新的探索点。尤其在智能汽车领域，也看到了很多产品研发和商业化落地的机遇。

接下来，我们看一下从算力的维度来看，，从算力来讲，最早我们谈“摩尔时代”。其实在小模型时代，它的算力上升是非常有限的，差不多从AlexNet到Transformer，这个过程中是增加了100倍。但从大模型时代开始，从Bert到GPT-4，一直到GPT4，它的算力差不多增加了10001200多倍。而接下来，我们对于整个行业内从硬件，我们叫算力布局来看，以特斯拉为例，它今天的算力大概拥有是1.4万块GPU，到明年整个发布会到10万块GPU。我们也可以看到特斯拉引领纯视觉的自动驾驶解决方案，加上数据闭环的优势，再加上巨大的算力支撑，它的投资和投入的模式也给很多行业带来一些思考。

对于大算力的投入、对于大模型的投入，甚至和汽车行业结合的投入，也是产业里要重点解决的问题。我们看到Google，包括OpenAI，包括国内很多公司，商汤也做了很多算力的布局。商汤从2018年、2019年就开始布局大算力。最早的时候，我们花了大概50多亿在上海的临港投入了算力中心时，很多人在问，在考虑我们作为一个软件公司为什么要投这样大的大算力。实际上我们在布局这个算力的时候，已经在为整个AGI时代做了前期的储备。

截至到目前，商汤拥有超过3万块GPU，整个算力已经达到6500 PetaflopsP。到明年，我们算力也会马上计划突破10000 Petaflops1万P的算力。截至到目前，我们不仅可以满足商汤几大内部核心板块的业务发展和产品化落地研发需要，也把算力开放给社会，让更多行业能够在我们算力中心上做一些模型的训练。商汤的算力中心截至目前，现阶段我们可能同时支持20多个超过千亿参数的大模型的训练，这也是很好的AI算力生态的联盟机制。

近一年，商汤发布了一系列大模型，在GPT4（多模态大模型）发布之前我们在今年3月已经开源了30亿参数的多模态的大模型，也是当时业界开源里面最强的多模态模型。今年4月份发布了日日新大模型的体系，5月份的时候通才智能体取得了突破性进展，6月份语言大模型在各项评比中超越GPT3.5，6月份我们也发布了全球第一个在自动驾驶领域端到端的UniAD大模型，它统一了感知、决策、推理、规划一系列核心要素，实现了第一个大模型，在CVPR获得最佳优秀论文，这是CVPR近三十年第一个以自动驾驶为题材的最佳论文，也是从1万篇候选当中选出来的。我们近期也会发布我们的世界模型，用于自动驾驶环境的生成和模拟仿真等等。从研发角度来看，最早我们做CV，到去年把“书生”大模型做了开源。我记得“书生”大模型开源的时候，截至到发布的时间点，这是我们在行业内看到最好的多模态模型，这也给行业学术圈和研究机构做了一些共享。到今年7月份，我们把“日日新”大模型做了两次发布，围绕所有大模型机制我们衍生出了很多像视觉类模型、语言类模型、多模态模型、推理决策模型。这中间大模型生态也有很多研发共享的内容，比如说多模态，它最大的价值就是把视觉模型和语言模型中间的Knowhow做了打通。推理模型上，我们大量借用了语言模型现有的Knowhow。

这是我们围绕汽车领域做的一些思考，我们认为作为汽车智能化核心的供应商，重要解决的是三件事：智能驾驶、智能座舱、AI云平台。

1.在智能驾驶领域内，我们已经发布量产了L2+的高速城市领航技术，接下来会拓展到城区。我们努力要打造一个软硬一体的全栈解决方案，同时能够也努力在推动无高精地图的城市领航技术的拓展。

2.智能座舱领域内，我们已经想的比较清楚，接下来努力打造的重点如何即如何基于大模型开发一套座舱大脑，把所有座舱内多模态感知、多模态的角色全部整合到一起，提供一个更好的第三移动空间的管家服务。

3.AI云平台，我们希望把这些算力中心能够打通，大量降低模型训练的成本，支持千亿大模型算力训练的同时，也能把很多汽车上大量需要高算力支撑的场景通过“云+端”的模式做一些延展和拓展。，我们会把商汤的大装置这样的基础设施开放给车厂和生态合作伙伴，帮助助力汽车行业更好实现产业化与智能化。

这里给大家展示的是大模型整体的研发体系，从模型的训练到模型推理的部署、云和端的结合，我们需要大幅降低推理的成本。在此基础上有大模型的体系，包括数据的平台、数据生产的管线，无论是通用的大模型还是行业的大模型，非常重要的就是数据的收集、数据的清理，这样的话我们可以提供一整套深入到行业里面的数据生产管线。再往上就是各种串联层包括函数的调用、沙盒的环境、知识融合、安全和价值观的对齐、MOE混合专家系统等等，再往上去支持自动驾驶、智能座舱、车路协同的应用。我们会把整个这套体系开放给我们的客户我们的合作伙伴。

这是整个一套研发体系，围绕这套研发体系，我们从底层的训练工具，包括低成本的推理和部署，以及到模型层面的整体模型生态，到上层的数据，以及中间的应用层所有支持各个产品的部署。这个点上，我们已经做了完整的布局。在过去过程中，我们也把这套架构和比较重要的核心战略合作伙伴做了很多探讨，也在其中找到了很多产业化落地的机会。

这是我们在今年首次推出的UniAD通用的自动驾驶模型，围绕这个模型，我们把感知的预处理，从预测到决策实现了端到端。在这个模型上，我们发现它的很多技术指标有大幅提升，这个也帮助我们获得了2023年CVPR的最佳论文，接下来这个模型会更多帮助行业探索，是不是真的能实现基于视觉低成本自动驾驶解决方案，是不是真正支持一个无地图快速的落地。接下来，整个行业都会往这个方向投入更多研发资源去探索。过去的自动驾驶整个系统里面有感知、融合、定位、决策、规控等等很多模块，在所有这些模块里只有感知部分依赖于神经网络，依赖于数据驱动，其他模块都是依靠手动的规则，今天有了UniAD的出现就实现了端到端的自动驾驶，一个神经网络完成了所有的模块，一旦所有的模块都能用神经网络实现的话，就能够实现数据的驱动，因为以往都是靠工程师编写各种规则和补丁，解决自动驾驶里面的各种corner case，现在可以通过数据的方式神经网络进行驱动。

这是智能座舱，从座舱的角度来看我们也经历了几个时代：从最早发展初期，围绕着AI内容生成、AI座舱的感知，我们做了大量的DMS、OMS，包括健康伴侣和近场景感知的技术，也帮助很多车厂完成了首发的量产。这个非常骄傲，我们其中很多技术落地时，在整个行业，不仅仅是中国，在全球来看都是0到1的突破，所以整个团队在这个过程中也围绕着“AI技术+车舱”比较好的落地场景做了很多探索。

去年开始，我们转攻专注在第三移动空间，。这中间带来的最大机会就是大量座舱APP的应用，以及多模态的交互，包括一些手势、和语音以及的结合，包括和视觉的结合。接下来最重要努力的目标就是怎么样围绕AGI大模型的能力，以及它的生态来构建一个智舱大脑。过程中，我们在产品研发、技术落地和产业化实践上，也发现在智能座舱AI领域内找到一个比较好的落地场景，中国的电动车也给了这个行业落地巨大的助力。在这个过程中，我们把产品技术以及市场占有率都达到了很高的重要性。围绕这个东西，，我们也构建了一套完整的质量体系，帮助这些软件能更好的落地汽车，并取得了一个较好的市场占有率。

这是目前大模型推进的时间轴，从今年4月份首次发布了日日新大模型开始，就把中间的一些思考在4月份上海车展上做了首次亮相。在那次车展上，我们把语言类大模型以及AIGC大模型第一次搬到座舱内。在7月份WAIC大会上，我们推出了众多AI座舱APP产品，这些都是围绕大模型的能力。今年9月份，我们非常高兴带着全栈的产品到德国参加了慕尼黑车展，我们发布的产品模型里面，它的功能已经增加到11个。今年10月份开始，我们围绕这些大模型落地场景已经在很多头部自主品牌上找到了一些定点的机会。接下来1-2年，我们就会看到大量围绕大模型落地的产品进到车舱内，给大家带来更多用户的体验。接下来，我们希望围绕怎么把产品打磨好，怎么把落地能够实现，帮助真正的终端用户得到大模型时代的红利。

这是我们认为的智能座舱大脑核心架构，包括感知层面。语音技术已经发展了这么多年，作为比较好的人机交互方式也得到大量认可，所以语音大量运用于新的智能车上。接下来，主要介入的就是手势控制，包括手势技术，以及视觉技术，形成多模态的感知技术。这样的感知技术就会把感知做得更准，围绕着座舱环境能形成一个超强感知，就可以帮助我们在座舱大脑这样一个概念上形成更好的决策依据。围绕车主一些记忆模块，包括一些长期的记忆和短期的记忆，最终在依靠云+端的算力支撑，我们就可以形成比较好的“千人千面”用户体验的服务。接下来在整个交互界面上，我们会看到更多虚拟助手、虚拟管家，包括数字人这样的生态进到座舱内，带给大家更好的交互体验。

这是整个流程图，中间蓝色区域从感知、分析、决策到记忆，这是接下来大模型要重点解决的问题。从传感器的角度来说，座舱车相对于手机，相对于IOT，有更好的独特性属性。我们在座舱内有大量输入的传感器，以及摄像头、语音输入等，这都是我们的机会。座舱又是相对比较封闭的场景，当我们开车A到B过程中，在自动驾驶时代没有完全来临时，我们还是有大量注意力放在驾驶本身这件事情上。在解决安全驾驶使命过程中，我们会发现大量时间段能通过优化HMI的交互，优化场景理解，优化推理决策，帮助车主得到更多你想要的任务，更简单获得你想要的任务，这也是整个座舱大脑架构和流程图上要完成的终极使命。

我们从大模型角度看一下它的独特性优势，对于高参数的多模态模型，我们在行业内还是比较有领先优势。大家可以看一下最左边的复杂场景，这个场景用于自动驾驶场景的。在做自动驾驶时，感知层面上我们很多是靠数据来驱动，所以会发现有大量的长尾问题和hard cCorner case需要解决掉的。接下来，更多是靠手写的规则来做。在这张图里面，结合这个图片中间白色的小轿车周围的环境，给出它应该有的驾驶的决策并作出解释。我们的模型给出的反馈，前方有红灯，有行人在穿行，前方有车辆在同行，左右有静止的车辆，后面有救护车的出现，应该做出避让救护车，让救护车先行。在这样的场景中，我们算法最终给出的建议是向左侧变道，让出当前的车道。在这样一个复杂的环境当中，有很多种因素构成的情况下，我们的大模型会给到自动驾驶系统一个比较合理的决策。这些很难用基于现有的手动规则，去书写自动驾驶的决策逻辑，对它们来说是很难完成的。但这样一个复杂的场景在这个时间点上，我们第二车道最前面的车是应该停还是走呢，可以看到在整个红绿灯状态下，还有同行车辆和行人状态下，一定决策是停的。但第二车道后面跟了一辆救护车，而且亮起了救护灯。这种场景下大模型给到最好的驾驶决策建议是，因为后面有紧急的特种车辆，所以我们应该靠边让行，让救护车辆通行。对于这样开放式任务，大模型就体现出它的独特优势，对于传统的手写规则，它会有很大的局限性。

中间的case看到更多是座舱内的场景，比如说自动驾驶的策略，做一些加速、减速，急加速、急减速，甚至变道的策略时，我们是不是要考虑座舱内的环境。如果舱内有低龄的儿童，有婴儿，我们这些策略是不是要做修正。这张图上可以看到，它问的问题，两个儿童是安全的吗，可以看到他坐在安全座椅上，安全带被完全固定的，这样相对来说环境就是安全的。如果这两个儿童坐在座椅上没有系安全带，就是完全不同的场景。对于座舱内的深度理解，相信这些感知信号会给到自动驾驶更好的输入，来帮助我们对舱驾融合接下来终极的生态产生很多正向的引导和帮助。

这是目前大模型体系和产品结构，

截至目前，我们在智能座舱板块已经发布了十多个基于大模型的产品应用，刚才也提到通过如上海车展和德国车展，把它们带给了很多客户。我们发现在这些众多大模型产品类别中，有很多车厂非常感兴趣，我们也正在充分利用现有产品研发的优势，与车企定制化去讨论不同的应用场景，以及它如何为不同的终端消费者带来“千人千面”的价值。包括其中像AI说明书、儿童故事，包括旅游攻略、隔空绘画等，这些场景都找到了很好的落地机会。我们已经拿到了大量大模型项目在手，接下来1-2年这些项目都会落地，也带给很多客户更多的惊喜。

尤其感到高兴的是，不仅是国内电动车车厂对智能化的东西有更好的诉求，我们在欧洲的车厂也对大模型产品产生了很高的兴趣。接下来，我们会围绕大模型本身研发节奏和持续迭代，带到行业内，这是全球汽车一体化智能化实践的机遇。

这是诸多座舱很多功能的展示，大家可以看一下，围绕儿童场景，这个场景很早以前就在做，提到更多的是场景引擎。儿童在座舱内是什么样的场景，我们能为儿童做什么，在座舱内能为儿童提供什么样的增值服务。这个里面会产生一系列的价值，比如教育、娱乐、交流，这样的话大大释放驾驶员的依赖，也能对儿童产生很好的帮助和陪伴。包括AI说明书，用更好更简单的交互方式来帮助我们对汽车的使用、汽车的维修、汽车的诊断产生很好的联动，这些项目我们都在推进了定点推进中。

这是我们认为大模型在座舱内的应用的演化趋势主要有看到的三个阶段。三段式，过去十几年由于芯片的技术、物联网的技术，包括大数据技术的迭代，尤其是手机、安卓生态大量的应用，我们看到了第一阶段APP快速导入的机会，现在的车厂除了大屏，有大量App都可以用，这就是手机生态很好的延续，也帮助我们座舱产生了很好的第一阶段应用。接下来很多车厂都在做的，包括接下来也把它做深的就是场景自动触发。我们基于感知，基于座舱内的环境，基于座舱内人员数量，甚至包括如是否有宠物等这些做出判断，我们应该为这个场景定制、触发怎样样的功能和服务。这些东西做到极致之后，接下来我们要看到最重要的极限就是大模型无处不在，它变成完全的智能管家，或者车载机器人，自动驾驶让车变成一个老司机；本身在座舱这个领域，变成一个贴心的管家，理解你，懂你，能够帮助你在座舱这个“封闭”环境内，更好去得到你想要的服务。

这是我们对接下来整个座舱的展望，我们接下来从高级别自动驾驶的逐渐高阶逐渐落地，智能座舱大模型引领的AGI时代的来临，我们可以看到接下来座舱内更多是从第三移动空间往智能机器人去转型。这里几个核心的关键词：全方位的需求理解，这个非常重要。在之前我们看到很多交互差不多都是人去触动，我们这个年龄段很多人开车全是机械式按键，必须按了这个键才能有响应。接下来随着语音进步，我们做人机交互更轻松。接下来有更多手势控制，也更轻松。多模态技术会帮助这些需求得到进一步升华和理解。这样的话，围绕座舱大脑，它会真正知道想你所想，然后引发出更多个性化服务，产生出拟人化的交付。这个中间我们对于未来场景需求会产生出哪些场景呢，汽车设计之初目标是安全的从A移动到B，它是一个交通工具。随着智能化的发展，我们现在更多看到它已经向第三移动空间，向智能机器人转型过程中，我们需要在座舱内去学习，去娱乐，要考虑它的安全属性，考虑它的交互，考虑和物联网的联动做万物互联，甚至关注车内成员的自身健康等的属性，所有东西全部打通在一起，我们认为接下来在物联网时代机器已经将会和车完全融为一体，座舱会产生一个新的使用场景，变成一个真正的智能管家。

这是我们对于AGI时代来临大模型技术研发的发展趋势，以及座舱接下来面临的一些升级机遇的探讨，也和大家做了一些分享。

商汤绝影智能车舱副总裁许亮：我们能同时支持20多个千亿大模型的训练

Published by

风君子