清研智库:美国全球人工智能竞赛的新战略

AI人工智能(AI)已经成为民用和军用背景下的一个技术热词。伴随着利益,奢侈的承诺、狂热的猜测和超乎寻常的幻想急剧增加,再加上资金的投入,试图将这一切都变成可能。尽管有这样的狂热,但AI技术必须克服几个障碍:成本很高,容易受到数据毒害和不良设计的影响,人类难以理解,而且要针对具体问题进行定制。无论多少钱都无法根除这些挑战,但美国政府和公司却一头扎进了开发和尽可能采用AI的行列。这就滋生了一种确定谁在AI竞赛中领先的欲望,通常是通过考察谁正在部署或计划部署AI系统。但鉴于AI作为一项技术所面临的诸多问题,它的部署情况并不是其质量的线索,更多的是部署者的文化和世界观的缩影。相反,衡量AI竞赛的最好方法不是看AI的部署,而是从更广泛的角度来看待未来产生AI的基础科学能力。

AI的基础:机器学习

AI既是一种未来主义的幻想,也是现代生活中无所不在的一个方面。AI是一个宽泛的术语,它广泛地包含了任何模拟人类智能的东西。日常生活中已经存在的专注于某一具体问题的狭义AI(下棋程序、电子邮件垃圾邮件过滤器等)到科幻小说中的广义AI(《银翼杀手》中的Rachel、《星球大战》中的R2-D2和《2001:太空漫游》中的HAL 9000)。即使是目前拥有并不断改进的狭义形式,也可以通过压缩决策的时间尺度、自动化重复性的琐碎任务、整理大量数据、优化人类行为,对世界产生重大影响。广义AI的梦想长期以来一直被推迟,不是不可能,可能一直遥遥无期,大部分进展仍停留在狭义AI上。早在20世纪50年代,研究人员就在构思机器,开发出了它们的初级版本,并演变成简单的日常程序,就像电子游戏中的计算机对手。

机器学习迅速跟进,但在21世纪初经历了一次复兴,当时它成为开发AI程序最常用的方法,以至于现在几乎成为AI的代名词。机器学习创建了一些算法,让计算机通过消耗大量数据,利用过去的经验来指导当前和未来的行动,从而实现改进。这可以通过监督学习来实现,即人类提供正确的答案来教导计算机;无监督学习,即给机器提供未标记的数据,让它自己寻找模式;强化学习,即程序使用试错来解决问题,并根据其决定进行奖励或惩罚。机器学习在过去十年中产生了许多AI领域的惊人进展,如面部识别和自动驾驶技术的大幅改进,并诞生了一种试图利用类似大脑的生物学方法创建处理数据的系统——深度学习。其特点是通过人工神经网络,将数据分解,由神经元单独处理一个特定的问题,并描述其评估的信心,网络将这些答案汇编成最终评估结果。

但是,尽管自机器学习复兴以来,AI取得了进步,其理论应用几乎是无限的,但它仍然是不透明的、脆弱的、难以发展的。

AI的挑战:人为因素

AI系统的开发方式会对其在未经测试的环境中发挥作用的能力产生怀疑,即要求大量的数据输入,必须近乎完美,以及其创造者先入为主的观念的影响。首先,缺乏或错误的数据是最大的挑战之一,尤其是在依靠机器学习时。要教计算机识别一只鸟,必须给它输入数千张图片来学习一只鸟的区别特征,这自然限制了在例子少的领域的使用。此外,如果哪怕是很小一部分数据是不正确的(只有3%),系统也可能会产生错误的假设,性能急剧下降。最后,系统还可能从已经包含固有偏见的现存数据(如简历档案或警方记录)中重新创建假设和偏见。这些也可能是程序员在设计机器学习算法时,无意中把自己的认知偏见灌输进去的。

这种深层次决策问题的倾向,可能只有在开发之后才会变得明显,对于那些想要严重依赖AI的人来说,将被证明是有问题的,特别是涉及国家安全的问题。因为将关键功能交给未经测试的机器的内在危险,部署AI程序的计划不应该主要被视为对其自身质量的反映,而是对一个组织的文化、风险承受能力和目标的反映。

对某种程度不确定性的可接受性也加剧了AI与人类监督整合的困难。一种方案是人类监督融入整个决策过程。另一种是AI保持近乎自主的状态,只有少量的人类监督。还有一种选择是让出人类的监督。选择将取决于利害关系:军队更可能允许机器在没有人类指导的情况下控制休假计划,而不是反导弹防御。

同样,对决策完整性存在疑问,将AI融入决策过程,意味着更大的风险承受能力,但同时也背叛了一种希望付出更多努力来追赶或超越该领域的技术水平的愿望。

全球AI竞赛:整体科学能力奠定基础

研发经费是现代世界科学进步的一个重要组成部分,经常被作为衡量AI进展的标准。然而,这种联系往往是似是而非的,科学过程中往往充满了死胡同、毁掉的假说和没有更广泛意义的具体研究问题。最后一点对于AI来说尤为突出,因为具体的AI应用具有量身定做的特点,它所解决的每个问题都需要不同的设计。比如指挥交通的AI,在驾驶汽车方面就完全没有价值。

因此,仅仅用项目支出的金额作为衡量AI的标准,就很难准确地评估成就。应该把钱看成是花费者价值的反映。项目支出并不是衡量AI发展进度的有效指标,而是衡量一个研究问题对提出这个问题的人有多重要。

但这种重要性提供了一个分析的价值,不管它是否适用于衡量AI竞赛:决策过程可以充分说明部署者的优先级、文化、风险承受能力和愿景。具有讽刺意味的是,部署AI的方式远比技术能力或成熟度更能说明部署AI群体的政治、经济和社会性质。这样一来,部署计划就为其他人提供了有用的信息。这一点在审查政府计划时尤其有效。

相反,有更好的方法来衡量AI的进展。在技术快速变化的同时,传统的科学能力衡量标准为衡量AI提供了更细致的基础,而且更难操纵。最相关的包括:科学家占人口的比例、发表的论文和引用次数、一般的研发支出(而不是专注于特定项目)、大学和STEM学生的数量。衡量任何科学过程自然充满了危险,因为有可能出现死胡同研究,但从广义上看,这些指标可以更好地反映一个国家或组织在AI技术方面的创新能力。然而,应该始终使用多种指标;任何专注于某一特定指标(如研究支出)的做法,都会使人们像依赖AI部署一样,容易对系统进行依赖。这种狭隘的关注也会扭曲对AI格局的看法。例如,考虑到尽管美国在人才、论文引用数量和大学质量方面持续领先,但仍对美国在AI中的地位具有强烈的不安全感。

美国国家安全委员会关于AI的报告草案指出:”拥有最具弹性和生产力的经济基础的国家将最有可能夺取世界领导地位。” 这句话概括了AI竞赛的本质,也是衡量AI的标准。如果一个政府或公司希望在这场竞赛中占据领导地位,目标应该是刺激产生它的基础,而不是积极推动某个具体项目、部门或目标。比如促进STEM教育,在内部培训新的研究人员,用激励措施吸引外国人才,为研发提供资金,并确保研究人员能够通过适当的制造和采购流程获得他们所需的IT硬件。

这些建议在美国常常被忽视,特别是由于美国国内优先事项的激烈政治化,如教育政策(影响大学)、移民政策(影响吸引外国人才)和经济政策(影响制造和采购)。同时,这不仅仅是提供更多的资金,而且还要精简流程以提高科学能力。例如,美国接受科研资助的制度繁琐、耗时、令人窒息,不同的政府机构有重叠的资助责任。努力确保申请补助金不仅更容易,而且能促进更广泛的科学探索。

在信息时代,新技术的部署及其先进程度已经成为衡量能力和效果的关键指标,但这些指标往往存在缺陷。特别是对于AI项目来说,研究预算、任务分配以及相对于人类的角色,几乎不能证明技术本身的状态。鉴于部署AI存在许多根本性的问题,风险容忍度和战略文化在决定如何开展AI方面发挥的作用更大:一个组织的风险容忍度越高,越感受到竞争对手的挑战,它就越有可能在关键职能上采用AI。美国在研究AI部署计划时,不应该看哪个国家或组织走在前面,应该用它们来研究它们的世界观和战略观,依靠整体科学能力来确定AI竞赛中的杆位。

本文作者Michael Depp,清研智库李梓涵编译

相关文章