文丨谭婧
原创丨亲爱的数据
如今,大模型的故事,须写尽能写之事。
越是如此,观点越犹如过江之鲫,难辨优劣。
而大模型竞争犹如武火烹菜,顶级科学家没时间辟谣。
拿一组仅供我自己参考的数字——全国做大模型的人才规模应该不是一个庞大数字——一百人左右。
谭老师我特别希望围追堵截的专家亲身做过大模型。
2023年4月第二个周五,我有幸和商汤王晓刚教授聊了聊大模型。作为商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁,王晓刚同时亦为香港中文大学电子工程系教授。
话不多说,我来划聊天全程重点。
首先,了解复杂事物很需要一个好比喻。
王晓刚教授给我的比喻是这样的:
“把通用人工智能大模型比喻成核聚变。先有核装置,其次有核原料。核装置就是我们已有的基础硬件系统。核原料就是非常丰富的数据,各个行业里丰富的任务。”
我问王教授:“商汤多年人才和技术积累,对攻下大模型这个山头有什么样的积极作用?”
还是核聚变那个比喻。
他说道:“‘好的原材料’就是要深入到各个行业里积累非常多的know-how。美国公司OpenAI能够把ChatGPT做出来,背后也有多年积累,从小模型到大模型的研发,中间积累了非常多的know-how。”
再聊回商汤,王教授认为商汤具有非常类似的优势,商汤有非常多的研发人员能深入到一线,用模型去解决实际问题,有很好的积累。
他相信好的原材料,能帮助商汤大模型成功。
关于第二点,他这样强调:“需要好的顶层设计,很好地把原材料设计成一个体系,能朝着通用人工智能的目标努力。除了大装置和基础设施以外,还要能从算法、框架上,把整个系统设计好,这样研发团队就能够专注在第一个方面。”
如此,大模型成功这件事情才会发生。
对ChatGPT的困惑与焦虑,绝不仅仅来自普通人,也来自科技从业者、研究人员。他们往往有较好的教育和研究背景。
在GPT-4发布的那个清晨,北京一位国科大的研一学生梅灵睿同学(他也是我的读者)坦诚地和我分享了他的焦虑:
“GPT-4秒杀的好多指标和领域可能都有无数科研工作者用其他方法耕耘了数十年。GPT-4出来后,这些东西似乎一瞬间就变成了技术发展走过的弯路了。”
他说:“GPT-4发布那天上午,大学里那节《机器翻译》研讨课直接变成了GPT-4研讨课。”
(这里需要解释一句,《机器翻译》课程是有关NLP中间任务的课程。)
震撼与茫然同时袭来。
这一幕在我脑海中久久不能淡忘。不成功并不可怕,可怕的是对手成功了。
在GPT-4冲击而来的混沌中,很难保持清澈。
我特意写下了如下的问题,请教王晓刚教授,也可以说这个问题是替“亲爱的数据”的读者问的。
GPT-4问世。
开发者齐声说:NLP中间任务is dead。
SAM问世,开发者齐声说:CV is dead。
(这句话中英夹杂,大意是自然语言理解中间任务已经消亡,计算机视觉已经消亡。)
一种AI技术“干死”其他AI技术,这标志什么?
那些“被干掉”技术背后的从业者是高层次人才,此后他们从观念和行动上应做哪些转变?
您会如何鼓励商汤研发团队面对这样一种“变化”或者“挫败”?
简而言之,王晓刚教授给我的答案的关键词是“拥抱全新研究范式”和“转变观念”。
他回答道:“谢谢你的问题,这个事情并不是什么新鲜事儿,历史总是一遍一遍重演。我们回顾一下十年前深度学习取代传统算法的那个时代。那时候大家普遍都有传统技术的积累。而深度学习一下子颠覆了所有传统。
一开始,人们还不太相信,大家觉得深度学习也许只在语音上能够做好。很快发现,新技术在计算机视觉分类问题上也可行。再后来,基本上是大家觉得新技术做不了的事情,后来都能做了。”
他强调:“颠覆会不断出现,且以非常快的速度出现。”
在他看来,现在重新有了一个机会。这对于整个行业发展非常好。
他谈道:“我们要拥抱全新研究范式,这里面的关键是我们要转变观念。十年前,商汤还没有诞生,我们创始团队在当时做的决定就是-All in deep learning。我们之前在传统视觉技术里也有较长积累,但是,当新技术来了,我们就果断地去拥抱新技术。今天也一样。”
他谈道:“如今,商汤研发想要做的事情就是怎么样去用好这些新技术。它带来的新范式包括人机共智,一起去创造新智慧。核心在于怎样用好我们的这个大模型,能够去形成正向的反馈,而不是一味地说‘很害怕’‘被颠覆了’。”
他指出,对研究人员来说,这是一件很让人兴奋的事情。
谭老师观察,没有犹豫,快速共识几乎是所有大模型参与者的共同特征。既是追求商业回报, 也是追求技术卓越。
下一个问题是关于“涌现”。
最近,谭老师我在和多位大模型负责人聊天的时候,开口第一个问题往往是:
“您的大模型涌现了吗?”
听到这个问题,大家莞尔一笑。给人一种只有内行人才懂“内部笑话(inside joke)”的感觉。
王晓刚教授给出了肯定答案,也顺手科普了“涌现”这个技术术语。
他谈道:“涌现这个现象的出现意味着大模型会不断给你惊喜,大模型能有新能力。”
他说道:“通过人机交互,或者思维链条的设计,科学家将不断解锁大模型新能力。比如,解答之前没遇到过的题目,它能够给出非常高质量的推理步骤。”
简单理解,“之前没遇到过的题目”是一种“未知任务”。
紧接着,王晓刚教授谈到了商汤的调整。
他谈道:“后面的话,我们会沿着既定方向和节奏更好地重塑商汤研发体系。动员整个商汤研究团队力量,形成合力,最终能够把通用人工智能大模型这件事情做好。这绝对不只是说训练一个参数量非常大的模型,它是一个体系化的大工程。”
王晓刚公开表达了对大模型的重视。通过这次对话,我相信大家也读到了商汤对于做好大模型的决心。
“重塑研发体系”“动员整个公司”,这对任何一家科技公司来讲都是大事,往往牵动组织战略与文化,团队管理与业务经营。
对于一家上市公司来说,拥抱新范式,所要面对的不仅仅是技术上的挑战。
我非常关心多模态大模型的技术发展。于是,追问了技术难点。
王晓刚教授强调了一遍问题之后才作答。“这里涉及到的难点在什么地方呢?”
他谈道:“图像和自然语言截然不同,表达的颗粒度,表述的能力完全不一样。将图像和自然语言两个技术结合在一起,那么界面或者任务接口需要再设计。图像是一种描述,自然语言是另外一种表述。”
他特意强调了创新关键点,他说道:“如何设计是我觉得需要花很多精力,要用创新实现的事情。”
要分两步,且调动不同力量。
第一,定义任务本身。
定义工作完成之后,学者们会非常擅长用各种数学工具去解决交互界面的问题。
(我与王晓刚教授讨论了“交互”一词的用法。我建议是否可以使用“融合”一词,他认为还是交互,因为相比交互,融合的路可能还要很长。)
比如,自动驾驶场景里,怎么用自然语言去描述一个自动驾驶系统。计算机视觉技术现在的做法是用检测框,用像素来描述,这跟人使用语言去理解的方式完全不一样。
谭老师我隐约感到很多人对于多模态大模型技术不关注,不了解,又因为太复杂而更加不愿意理解。而我却觉得多模态大模型技术日益重要。
对于多模态大模型技术,GPT-4已有建树,国内多个大模型团队业已布局。(因为国内很多大模型尚未发布,我不便多说。)
我问的最后一个问题是:“您认为多模态大模型技术之前有没有被低估?”
王晓刚回答道:“对,那肯定是的。”
他回答道:
“自然语言的大模型展现出来的各种能力,涌现出来新的功能,确实是让我们眼前一亮。人们自然联想,怎么让自然语言跟图像能有一个更好的结合。毕竟人摄取的信息中有90%是视觉信息。语言已经给我们打开了一个非常大的想象的空间。后面,怎么跟视觉结合?
我觉得这是一个全新的需要思考的问题。之前也强调,两者大为不同,融合的方式更是完全不一样。在计算视觉里面,可能也涉及各种不同的信息源,基本上就做一个加权平均,做类似的融合。但是,自然语言技术有其处理上的独特性。”
他强调:“所谓的多模态,并不单单是把语言跟图像放在一起就可以了。怎样让两者相交互,彼此能够有帮助,我觉得这个可能是后面我们要充分挖掘的重点。”
技术变革,无情又残忍。它制服嘴硬的人,但无法驯服心坚志硬的人。
(完)
更多阅读
AI框架系列:
1.搞深度学习框架的那帮人,不是疯子,就是骗子(一)
2.搞AI框架那帮人丨燎原火,贾扬清(二)
3.搞 AI 框架那帮人(三):狂热的 AlphaFold 和沉默的中国科学家
4.搞 AI 框架那帮人(四):AI 框架前传,大数据系统往事
注:(三)和(四)现在并未公开发表,将会以图书出版的形式与各位见面。
漫画系列
1. 解读硅谷风投A16Z“50强”数据公司榜单
2. AI算法是兄弟,AI运维不是兄弟吗?
3. 大数据的社交牛逼症是怎么得的?
4. AI for Science这事,到底“科学不科学”?
5. 想帮数学家,AI算老几?
6. 给王心凌打Call的,原来是神奇的智能湖仓
7. 原来,知识图谱是“找关系”的摇钱树?
8. 为什么图计算能正面硬刚黑色产业薅羊毛?
9. AutoML:攒钱买个“调参侠机器人”?
10. AutoML:你爱吃的火锅底料,是机器人自动进货
11. 强化学习:人工智能下象棋,走一步,能看几步?
12. 时序数据库:好险,差一点没挤进工业制造的高端局
13. 主动学习:人工智能居然被PUA了?
14. 云计算Serverless:一支穿云箭,千军万马来相见
15. 数据中心网络:数据还有5纳秒抵达战场
16. 数据中心网络“卷”AI:迟到不可怕,可怕的是别人都没迟到
AI大模型与ChatGPT系列:
17. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?
18. ChatGPT:绝不欺负文科生
19. ChatGPT触类旁通的学习能力如何而来?
20. 独家丨从大神Alex Smola与李沐离职AWS创业融资顺利,回看ChatGPT大模型时代“底层武器”演进
21. 独家丨前美团联合创始人王慧文“正在收购”国产AI框架OneFlow,光年之外欲添新大将
22. ChatGPT大模型用于刑侦破案只能是虚构故事吗?
DPU芯片系列:
1. 造DPU芯片,如梦幻泡影?丨虚构短篇小说
2. 永远不要投资DPU?
3. DPU加持下的阿里云如何做加密计算?
4. 哎呦CPU,您可别累着,兄弟CIPU在云上帮把手
长文系列:
1. 我怀疑京东神秘部门Y,悟出智能供应链真相了
2. 超级计算机与人工智能:大国超算,无人领航
最后,再介绍一下主编自己吧,
我是谭婧,科技和科普题材作者。
为了在时代中发现故事,
我围追科技大神,堵截科技公司。
偶尔写小说,画漫画。
生命短暂,不走捷径。
原创不易,多谢转发
还想看我的文章,就关注“亲爱的数据”。
查看全文
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.dgrt.cn/a/2266646.html
如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!
相关文章:
“重塑商汤研发体系”“动员整个公司”,我和商汤首席科学家王晓刚聊AI大模型…
文丨谭婧原创丨亲爱的数据如今,大模型的故事,须写尽能写之事。越是如此,观点越犹如过江之鲫,难辨优劣。而大模型竞争犹如武火烹菜,顶级科学家没时间辟谣。拿一组仅供我自己参考的数字——全国做大模型的人才规模应该不……
Thinkphp6.0中间件.上
本节课我们来学习一下中间件的用法,定义一下中间件。 一.定义中间件 1. 中间件的主要用于拦截和过滤 HTTP 请求,并进行相应处理; 2. 这些请求的功能可以是 URL 重定向、权限验证等等; 3. 为了进一步了解中间件的用法&……
藏在VPU里的玲珑棋局
最近ChatGPT引发了全球范围内的AI热,随之而来的是与AI算法紧密相关的AI计算与AI芯片又一次火爆了起来。但事实上,大语言模型能够驱动的算力增长是有限的。根据相关数据,未来有70%-80%的AI计算任务将发生在机器视觉与多模态领域。因此……
程序员本硕博——高效软件
程序员&本硕博——高效软件windows10one commander:家庭使用免费,不需要买pro总体介绍栏目布局:默认左右双栏,可以隐藏,可以换成上下双栏隐藏上下双栏切换分栏导航:【两个】文件栏,【右上角……
蓝易云:常用Linux系统命令-系列【1】
欢迎来到Linux教程!
Linux是一种操作系统,与Windows或Mac OS X不同。它是完全免费的,并且是由全球各地的志愿者开发和维护的。Linux是一个非常强大的操作系统,用于处理服务器、桌面电脑、嵌入式设备等。
首先,让我们……
【OpenCV学习】(九)目标识别之车辆检测与计数
【OpenCV学习】(九)目标识别之车辆检测及计数
背景
本篇将具体介绍一个实际应用项目——车辆检测及计数,在交通安全中是很重要的一项计数;当然,本次完全采用OpenCV进行实现,和目前落地的采用深度学习的算……
【机器学习学习笔记】机器学习入门监督学习
1. 机器学习入门
1.1 What is Machine Learning?
"Field of study that gives computers the ability to learn without being explicitly programmed. "
——Arthur Samuel (1959)
亚瑟萨缪尔:跳棋程序编写者
常用机器学习算法: ……
【RP-RV1126】音频系统
文章目录音频基础前面一、常用命令/软件1.1 aplay 命令播放音频文件1.2 amixer 命令alsamixer与amixer的区别1.3 arecord 命令二、开发板命令行录音测试修改配置文件使用rkmedia例程录音与播放要想使用以下这些命令需要安装alsa-lib和alsa-utils库。
音频基础
(1&……
三次握手详解,全网最全
一、TCP 报文段简介
在介绍三次握手和四次挥手之前,先来简单认识一下 TCP 报文段的结构 TCP报文段也分为首部和数据两部分,首部默认情况下一般是20字节长度,但在一些需求情况下,会使用“可选字段”,这时,首……
【mysql】索引总结
检查索引关键字: explain explain select * from emp where asl > 1000\G官网文档: https://dev.mysql.com/doc/refman/5.7/en/ id:选择标识符 select_type:表示查询的类型。 table:输出结果集的表 partitions:匹配的分区 type:表示表的连接类型 possible_keys:表示查询时……
Pandas入门实践2 -数据处理
为了准备数据进行分析,我们需要执行数据处理。在本节中,我们将学习如何清理和重新格式化数据(例如,重命名列和修复数据类型不匹配)、对其进行重构/整形,以及对其进行丰富(例如,离散化……
一、lua基础知识1
一、lua 的数据类型
–类型 a1; –number print(type(a)) –number b"HelloWorld"; print(type(b)) –string 两种数据类型 ctrue; print(type(c)) –boolean true 或者 false d print; d("HelloWorld"); print(type(d)); –function类型 ……
二、lua语言基础2
1.lua的类型有哪些?答:lua的数据类型有:number,string,nil function,table,thread,userdata(用户自定义的类型),boolean(布尔类型) 2.什么是尾调用,尾调用有什么优点尾调用:在一个函数的最后一步开始调用另……
quick-cocos2dx-luaUI控件讲解
–MyApp部分 require("config") require("cocos.init") require("framework.init") local MyApp class("MyApp", cc.mvc.AppBase) function MyApp:ctor() MyApp.super.ctor(self) end function MyApp:run() cc.FileUti……
quick-cocos2dx lua语言讲解 (动作,定时器,触摸事件,工程的类的讲解)
–MainScene部分
— display.newScene 创建一个场景 — 在quick里面我们的控件、精灵 一般是加载到场景上的 local MainScene class("MainScene", function() return display.newScene("MainScene") end) function MainScene:ctor() –创……
使用quick-cocos2dx-lua 实现的小游戏(包含碰撞检测,触屏发子弹)
–主界面local MainScene class("MainScene", function()return display.newScene("MainScene")end)ON true;function MainScene:ctor()local bg cc.Sprite:create("main_background.png");bg:setScale(2);bg:setPosition(display.cx,display……
cocos2d-js 中scrollview详解
/****
开头的一些废话:
1、多思考,善于思考
2、懂得变通
3、多多查询API首先复制一段 API中的源码:(UIScrollView.js)这段代码可以看出 scrollview
中的容器是一个node,并且他的位置是:代码最后……
cocos2d-js中的回调函数中世界坐标系和节点坐标系的相互转换
世界坐标系和节点坐标系都是OPENGL 坐标系 1、世界坐标系原点就是屏幕的左下角; 2、节点坐标系的原点就是一个节点的左下角; 3、两个坐标系可以通过已经写好的cocosAPI进行想换转换; 4、所有的节点需要转为一个节点上或者是统一的世界坐标系……
通过JavaScript实现漂浮
<html>
<head><meta http-equiv"Content-Type" content"text/html"; charset"gb2312" /><title>漂浮广告</title><style type"text/css">div{position:absolute;}</style>
</head>
&……
序列动画和图片内存问题
一、帧动画问题 /*** 帧动画总结:* 1、如果精灵进行新建时,加载了纹理,那么setRestoreOriginalFrame可以设置为false或者true* 2、如果精灵新建时,没有加载纹理的话,那么setRestoreOriginalFrame需要设置为false&#……
编程日记2023/4/16 15:01:22