在阿里云栖大会2024,本来以为主要论点是“云”;没想到居然会变成“O1”的主场。主论坛里上来了三位嘉宾,被张鹏直接拉到了O1的话题上。而且核心居然是系统1与系统2.
卡尼曼的《思考的快与慢》里的系统1与系统2。不知道是不是心理学家与经济学家的结合,让卡尼曼更容易看透人在经济活动中的心理是什么!不过我想他大概没有想到2024年去世后,他的系统1与系统2会成为人工智能的一个标准词汇。
直觉(系统1,包含知觉)的操作是快速的、平行的、自动化的、不耗费资源的、联结的、内隐的(无需反省)以及通常是情绪驱动的,它经常为习惯、经验、刻板印象所支配,因此很难控制或修正;
理性(系统2)的操作是缓慢的、系列的、控制的、耗费资源的、不容易出错、存在意识控制。
这两个系统更像是现在人类已经达到的:LLM/MMLM 这个近乎于系统1的成果。但是很遗憾,它也像系统1定义那样,快速、无反省,自动化的,它只能处理日常问题。而更有智能代表性的:系统2?现在只看到了 O1,这一个产品达到了它的迹象!
而O1,是不是AGI,很明显不是。但是好几位都感觉在确认:它就是AGI的开始!
Ilya说找到了山头,开始爬了。
karpathy说互联网上基本上没有关于思考的数据,也就是没有系统2的数据。
sam 又出来画饼
综合这几个人的观点,都在暗示,O1这个ReinforceLearning方向是非常正确的通向通用人工智能的路。
而在云栖大会上
阶跃星辰的姜大昕、月之暗面的杨植麟、清华的朱军都认为未来RL这个方向会继续ScalingLaw。但是同时又都表达了一个问题:大家并不清楚O1这个具体的训练方法,因为RL这个方向过去是个玄学,只在受限且高度可重复的环境下可用。典型的应用只是游戏、游戏、游戏!
今天突然间有人说,把它应用到了一个相对开放的LLM领域,那它的过程奖励是如何做的?原来LLM/MMLM只是端到端的结果,只要奖励结果就好了。而现在呢?你是奖励什么?Prompt?中间的某一段代码?甚至是某一个代表思考的逻辑?就像面对一个黑盒,你可能知道人家给你看的,但是你想要的是一个不穿衣服的!
甚至于RL怎么应用到了这个通用且泛化的领域,可能大部分人(绝大部分)都没有想明白!而这可能代表了一件事:LLM从一个半娱乐化的Product正在向一个纯工具化的AI进化中。PMF非常的好!不只是PMF好,而且智商超过了人类的高智商门槛!
其实听到这儿的时候我真的感觉有点悲哀,国内最顶尖的AI企业的创始人与顶级学者都不清楚,可见我们的AI距离OpenAI有点儿远!只知道,山在那儿,有人可能达到了,甚至能爬得更高。我们呢?
在那儿?在那儿?在那儿?