pc蛋蛋网站_pc蛋蛋幸运28_pc28预测官网平台 > 科研笔记 >

learning札记|2nd|以任务为目的的智能体构建|朱松纯大师说AI

  朱教授这篇正本清源的综述性文章,建立在大师深厚的数学功底和长期从事机器视觉、机器人等领域研究基础上,将人工智能领域面临的本质问题进行了深入剖析:梳理了目前六大主流方向和其统一化的发展趋势判断,提出了小数据、大任务的认知范式,总结了人工智能走向智能学科所面临的物理学与生物学的统一化问题。

  朱教授也批评了当下科研工作的“娱乐化”倾向,肤浅的歌曲流行,大家都能唱,复杂高深的东西大家躲着走。对国人投入大量资源的“刷榜”现象提出了异议,让人振聋发聩。

  David Mumford教授 [左] [David Mumford,菲尔兹奖、美国国家科学奖章获得者,国际数学家协会前主席]与朱松纯教授

  朱松纯,男,1968年出生于湖北省鄂州市,全球著名计算机视觉专家,统计与应用数学家、人工智能专家,现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授,UCLA计算机视觉、认知、学习与自主机器人中心主任。

  朱松纯于 1996年获美国哈佛大学计算机博士学位,师从国际数学大师大卫·曼福德教授 [David Mumford,菲尔兹奖、美国国家科学奖章获得者,国际数学家协会前主席],在国际顶级期刊和会议上发表论文200余篇, 三次问鼎马尔奖。朱松纯在1990年代率先将概率统计建模与随机计算方法引入计算机视觉研究,提出了一系列图像与视频的结构化解译的框架、数理模型和统计算法,发展了广义模式理论 [General Pattern Theory]。在认知科学领域,如视觉常识推理、场景理解及人工智能等领域做出重要贡献。自2010年以来,朱松纯两次担任美国视觉、认知科学、AI领域跨学科合作项目MURI负责人 [Principal Investigator], 并负责多个美国DARPA项目。朱松纯教授对科研具有很强的前瞻性,选题和方法独树一帜,长期致力于构建计算机视觉、认知科学、乃至人工智能科学的统一数理框架。

  研究方向:计算机视觉,统计建模与计算, 机器学习, 认知与AI, 机器人自动化, 视觉艺术。

  当前人工智能涵盖很多大的学科,我把它们归纳为六个,这些领域目前还比较散,目前它们正在交叉发展,走向统一的过程中。

  (2)自然语言理解与交流(暂且把语音识别、合成归入其中,包括对线)认知与推理(包含各种物理和社会常识)

  (5)博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题)

  各个领域的研究人员看人工智能,如果按照印度人的谚语可以叫做“盲人摸象”,但这显然是言语冒犯了,还是中国的文豪苏轼游庐山时说得有水准:

  人工智能的研究,简单来说,就是要通过智能的机器,延伸和增强(augment)人类在改造自然、治理社会的各项任务中的能力和效率,最终实现一个人与机器和谐共生共存的社会。这里说的智能机器,可以是一个虚拟的或者物理的机器人。与人类几千年来创造出来的各种工具和机器不同的是,智能机器有自主的感知、认知、决策、学习、执行和社会协作能力,符合人类情感、伦理与道德观念。

  。既然说到这里,我就顺便说说一些竞赛的事情。大约从2008年开始,CVPR会议的风气就被人“带到沟里”了,组织各种数据集竞赛,不谈理解了,就是数字挂帅。中国很多学生和团队就开始参与,俗称“刷榜”。我那个时候跟那些组织数据集的人说(其实我自己2005年是最早在湖北莲花山做大型数据标注的,但我一早就看到这个问题,不鼓励刷榜),你们这些比赛前几名肯定是中国学生或者公司。现在果然应验了,大部分榜上前几名都是中国人名字或单位了。

  我曾经访问一家技术很牛的中国公司(不是搞视觉的),那个公司的研发主管非常骄傲,说他们刷榜总是赢,美国一流大学都不在话下。我听得不耐烦了,我说人家就是两个学生在那里弄,你们这么大个团队在这里刷,你代码里面基本没有算法是你自己的。如果人家之前不公布代码,你们根本没法玩。很多公司就拿这种刷榜的结果宣传自己超过了世界一流水平。

  这是人工智能研究最大的障碍。那么什么是常识?常识就是我们在这个世界和社会生存的最基本的知识:(1)它使用频率最高;

  (2)它可以举一反三,推导出并且帮助获取其它知识。这是解决人工智能研究的一个核心课题。

  我自2010年来,一直在带领一个跨学科团队,攻关视觉常识的获取与推理问题。我在自动化所做了另外一个关于视觉常识报告,也被转录成中文了,不久会发表出来。

  那么是不是说,我们离真正的人工智能还很遥远呢?其实也不然。关键是研究的思路要找对问题和方向。自然界已经为我们提供了很好的案例。

  那么现在开始进入一个什么状态呢?这“春秋五霸”不断扩充地盘和人马,在一个共同平台上开始交互了。比如说视觉跟机器学习很早就开始融合了。现在视觉与自然语言、视觉跟认知、视觉跟机器人开始融合了。

  我的判断是,我们刚刚进入一个“战国时期”,以后就要把这些领域统一起来。首先我们必须深入理解计算机视觉、自然语言、机器人等领域,这里面有很丰富的内容和语意。如果您不懂这些问题domain的内涵,仅仅是做机器学习就称作人工智能专家,恐怕说不过去。

  现在,我们就来到一个很关键的地方。同样是在概率统计的框架下,当前的很多深度学习方法,属于一个被我称作

  ”。针对某个特定的任务,如人脸识别和物体识别,设计一个简单的价值函数Loss function,用大量数据训练特定的模型。这种方法在某些问题上也很有效。但是,造成的结果是,这个模型不能泛化和解释。所谓泛化就是把模型用到其它任务,解释其实也是一种复杂的任务。这是必然的结果:你种的是瓜, 怎么希望得豆呢?我多年来一直在提倡的一个相反的思路:人工智能的发展,需要进入一个“

  ”,要用大量任务、而不是大量数据来塑造智能系统和模型。在哲学思想上,必须有一个思路上的大的转变和颠覆。自然辨证法里面,恩格斯讲过,“劳动创造了人”,这个有点争议。我认为一个更合适的说法是“任务塑造了智能”。人的各种感知和行为,时时刻刻都是被任务驱动的。这是我过去很多年来一直坚持的观点,也是为什么我总体上不认可深度学习这个学派的做法,虽然我自己是最早提倡统计建模与学习的一批人,但是后来我看到了更大的问题和局势。

  。我把这些图像之外的东西统称为“暗物质”--- Dark Matter。物理学家认为我们可观察的物质和能量只是占宇宙总体的5%,剩下的95%是观察不到的暗物质和暗能量。视觉与此十分相似:感知的图像往往只占5%,提供一些蛛丝马迹;而后面的95%,包括功能、物理、因果、动机等等是要靠人的想象和推理过程来完成的。我的一个理念是:计算机视觉要继续发展,必须发掘这些“dark matter”。把图像中想象的95%的暗物质与图像中可见的5%的蛛丝马迹,结合起来思考,才能到达真正的理解。

  ,也可以用一个STC-AOG 和STC-PG 来表达的,见下图,大致包含四部分。

  我们要达成共识,共同的知识,然后在一个小的团体、大致社会达成共同的价值观。当有了共同价值观的时候,就有社会道德和伦理规范,这都可以推导出来了。俗话说,入乡随俗。当你加入一个新的团体或者社交群体,你可能先观察看看大家都是怎么做事说话的。机器人要与人共生共存 必须理解人的团体的社会道德和伦理规范。所以说,这个认识论是机器人发展的必经之道。乌鸦知道人类在干什么,它才能够利用这个在社会里生存。

  。下图就是我提出的一个认知模型。两个人之间至少要表达五个脑袋minds:我知道的东西、你知道的东西、我知道你知道的东西、你知道我知道的东西、我们共同知道的东西。还有,对话的时候你的意图是什么等等诸多问题。具体我不讲那么多了。

  拓扑学是什么意思?就是说图象空间,语言空间,就是一个大集合,全集。我们的每个概念往往是它的一个子集。语言就是一个符合语法的句子的总的集合。STC-AOG就是知识的总体表达,而我们看到的眼前每一个例子是由STC-AOG导出来的时空因果解译图STC-PG。计算机视觉用它,语言肯定用它,认知是它,机器人任务规划也是它。这就是一个统一的表达。

  所谓“人往高处走、水往低处流”说的是社会和物理的两个不同现象,本质完全一致。就是人和水都在按照

  在运动!那么驱动人的势能函数是什么呢?有了价值函数,在一个多人环境中,就有了竞争与合作,形成我们上一节谈到的社会规范、伦理道德。

  。每种平衡态不见得是一个固定的规则,要求大家做同样的规定动作,而是一种概率的“行为的语法”。规则其实就是语法。说到底,这还是一种概率的时空因果与或图STC-AOG的表达。

  (2)物理学把生物的意志排除在研究之外,而这正好是智能科学要研究的对象。

  (1)物理学面对的是一个客观的世界,当这个客观世界映射到每个人脑中, 形成一个主观与客观融合的世界,也就是每个人脑中的模型(这是统计中贝叶斯学派观点)。

  (2)物理学可以把各种现象隔离出来研究,而我们一张图像就包含大量的模式, 人的一个简单动作后面包含了很复杂的心理活动,很难隔离开。