人工智能从1952年发展到现在,经历了概念人工智能、玩具人工智能、统计人工智能、真实人工智能、通用人工智能等阶段。特别是阿尔法狗(AlphaGo)、阿尔法折叠(AlphaFold)、ChatGPT和Sora等人工智能产品的相继发布,开启了现代人工智能的新篇章。以多模态异构数据生成式大模型为基座的通用人工智能技术已成为行业发展的趋势。现代人工智能技术大致可以分成两个主要代表类型:一是以美国开放人工智能研究中心(OpenAI)大语言生成模型为代表的通用智能系统;二是以谷歌旗下人工智能公司深度思考(DeepMind)为代表的科学研究的赋能范式,即科学研究的自动化方法。
人工智能的发展对学科建设和人才培养提出了新要求、带来了新机遇,但是我们要抱有严谨和清醒的态度。
人工智能的发展现状
人工智能发展需要有算法、算力、工程、数据、市场五个主要要素,但归根结底取决于人才。我国在人工智能领域中等水平的人才储备较为丰富,但顶级人才极其匮乏。高科技的发展不能采取田忌赛马的方式,重大创新性成果往往取决于最优秀的人才。我国发展通用人工智能面临的主要问题是同时精通算法和工程实现的顶级人才稀缺。
现代人工智能技术是通过机器学习及由其驱动而发展起来的计算机视觉、自然语言处理和语音识别技术来实现多模态数据融合的现实交互。因此,算法层面目前主要牵涉机器学习、计算机视觉、自然语言处理、语音识别等。机器学习是核心,后三者则是应用场景驱动。机器学习对人工智能起关键作用的领域主要包括深度学习、强化学习、统计学习。
我国人工智能力量主要集中于计算机视觉和深度学习领域,而在自然语言处理、强化学习和贝叶斯学习领域相对薄弱。这主要由于计算机视觉研究的对象不涉及语言、地域等问题,我国发展水平一直处于国际前列。而深度学习的突破源于计算机视觉,这也使得我国深度学习的发展水平和国际水平相差不大,相应的视觉产业市场明晰,数据标注布局也比较充足。
自然语言处理远比计算机视觉要复杂,而且,语言具有特异性,直接将基于英文开发的语言模型应用到中文处理任务中不一定适宜。此外,由于自然语言处理市场潜力有限,使得中文语言数据标注没有得到足够重视,现在数据反而成为制约其发展的一个主要障碍。我国在机器翻译和信息检索等应用上的发展势头良好,但总体来看与我国在计算机视觉上的国际影响力还有一定差距。
好的算法需要好的工程实现才能发挥其最大的效果,特别是人工智能技术基于深度学习和强化学习,且依赖大规模数据,所以工程实现变得尤为关键。深度学习在计算机视觉中以及强化学习在大语言模型中取得的成功都是算法和工程完美结合之作。机器学习系统已成为一个重要的领域。我国大学培养了大量计算机人才,他们的工程能力提升极大依赖于开源社区。然而,现代人工智能对算力和数据要求较高,学术界难以有机会积累实践经验。
强化学习的成功主要体现在棋类游戏这种具有明确规则的应用场景中,在其他领域应用落地一直难以推进。强化学习对概率统计背景知识要求相对较高,我国大学目前基本没有高水平的强化学习课程,所以该领域人才储备无论是数量还是质量都不够。
统计学习是联系机器学习和统计学的桥梁,是研究计算机视觉、自然语言处理和语音识别的主流方向。贝叶斯和频率是统计学的两个经典流派,在我国贝叶斯派相对于频率派发展较为滞后,受重视程度也不高。但是贝叶斯方法在人工智能的发展中一直起着非常关键的作用。当前贝叶斯模型面临大规模数据的可扩展性问题,但前景仍值得期待,经验贝叶斯或将引领大语言模型之后的下一轮人工智能技术。
人工智能是计算机科学应用,但其数学基础从传统的离散、组合转移到概率、统计,所以人工智能主要支柱学科是计算机科学和统计学。由于我国学科发展依赖资源分配,计算机科学和统计学之间存在学科壁垒,制约了两个学科的发展和人才培养。此外,我国统计学的发展也极不平衡,统计学科主要在一些财经类和师范类大学开设,综合性和理工类大学则对统计学科发展重视不够,而多数学校统计学的发展也是由数学或管理学主导。这种不平衡导致统计学不能很好地支撑我国人工智能的发展。在计算机科学方面,由于理论和系统研究难度大、产出周期长,许多高校对这些领域的投入热情不高。这些因素致使我国在算法和工程领域顶级人才的培养和储备不足。
人工智能的学科建设与人才培养
高校发展人工智能应该有所为、有所不为。学校的根本任务立足于基础研究和人才培养两方面,这是必须做好的。而科学智能科研平台开发和应用落地则可以交由市场驱动。高校的目标包括以下几方面。
机构建设。目前许多学校同时建有人工智能学院和人工智能研究院两个机构,可以赋予两者不同的功能。学院主导学科建设和本科人才培养。研究院则整合学校的人工智能资源,在学校的统一领导下,由计算机科学、统计学和应用数学等专业学者组织执行委员会,一是方便不同学科交流,规划人工智能学科发展;二是联合培养人工智能方向的博士生,开设前沿高级课程。跨学科研究机构应该由相关院系共建,各院系共同制定机构运行章程,推选机构负责人,采取轮流方式,负责人的职责以服务和组织为主,教授或实验室进行自主研究。
学科建设。发展人工智能包含三个层面:如何做,即开发新的模型、技术、算法和场景;如何用,即寻找人工智能在更广泛领域的应用,针对一些特定的应用领域或场景制定方案;为什么,即分析和探究其运行机理与基础理论。因此,学科发展和人才培养目标应该与这三个层面相对应。算法是人工智能的核心,人工智能的突破源于此,是大国竞争的角力点。而基础理论研究可以夯实学科底蕴,是学科持续发展的源泉和基石。目前我们的师资力量还不足以支撑人工智能人才特别是高级人才的培养,基础研究将为未来的优质师资做储备。应用层面牵涉学科交叉,刚好可以发挥研究院这个平台的功能。但是如果对所涉及学科没有深刻的理解,是不太可能解决本质问题的。只有真正了解人工智能和领域学科的核心问题,才能有的放矢,对人工智能乃至相关学科起到实质性的推动作用。
人才培养。通过人工智能研究院有效整合计算机科学、统计学和应用数学师资力量,建设人工智能卓越博士生项目。本科阶段,在数学、统计学、计算机科学、物理学中选取某一个专业进行系统性的训练,对人工智能卓越人才的博士生培养很有必要。可以从大学四年级开始,进行大约两年的学科基础训练,对于主动性不强的学生授予硕士学位,优秀的学生则鼓励继续攻读博士学位。课程体系要注重培养学生的算法思维和工程思维相融合,核心专业课程包含机器学习基础、深度学习、强化学习、自然语言处理、计算机视觉等。本科非计算机专业的学生可再学一些计算机课程,如算法与数据结构、计算机系统导论、CUDA并行编程等。而本科为计算机专业的学生可以多学些数学类课程,如统计学基础、贝叶斯推断、概率计算等。研究生课程一定是前沿且基础的,要成体系且贴近最新的技术发展。现在我们开设了不少前沿研究生课程,但大多是专题讲座,不成知识体系,所以学生学到的知识往往是碎片化的,这类课作用不大,人才培养的关键是能够开设一批前沿顶级的课程。
评价标准。我国博士生培养目前以发表论文为研究驱动力,由此培养出丰富的中等水平人才,而顶级人才的培养则需要以解决核心和重大问题为兴趣驱动。我们要鼓励学生进行原创性探索,引导学生以解决某个具体的人工智能算法或场景问题为目标撰写博士论文,毕业考核不再“唯论文”。其实,阿尔法狗、阿尔法折叠、ChatGPT和Sora等知名人工智能产品的关键算法和核心技术是由工程师设计出来的,他们都在高校受到良好的基础知识和科研训练。未来三至五年是我国人工智能发展的关键机遇期,博士生培养的水平真正体现高校的价值和担当,是衡量世界一流大学的最重要标准。
发展人工智能需要高度的想象力、创造力和执行力。人工智能是青年人的舞台,我们需要创造良好的环境和机制,潜心培养一批有才华的年轻人,帮助他们构建较为完整、先进的学科知识体系,储备丰富的研究工具和手段,树立平等、独立与合作的科学精神,激励他们自由探索最有挑战性的领域和课题,并创造机会让青年人脱颖而出。
(作者单位:北京大学数学科学学院/计算机学院)