人大：和清、北做不一样的AI

本文作者： camel

2019-11-25 23:26

导语：智能而有温度~

人大：和清、北做不一样的AI

前几日，雷锋网报道了武汉大学成立人工智能研究院的消息后，有读者看到国内已成立的人工智能学院列表中有「中国人民大学-高瓴人工智能学院」，表示好奇人大成立人工智能学院做什么。雷锋网在这篇文章中详解「高瓴人工智能学院」的「思」与「做」。

一千个读者，就有一千个哈姆雷特。

一千所高校，也将有一千个不同特色的人工智能学院/研究院。

中国人民大学，与清、北并称三大超一流名校，清华理工，北大文理医，人大社科。一直以来在人们的印象中，人大是社科的巨无霸，但理工却几无存在感。

然而，在今年年初（1月19日），人民大学宣布成立了高瓴人工智能学院，并做如下定位：

“高瓴人工智能学院是学校下属的二级学院，负责学校人工智能相关学科的规划与建设，开展本学科领域的人才培养和科学研究工作……充分发挥学校在人工智能相关学科的已有优势，建设世界一流的人工智能学科，提升学校的国际影响力和竞争力。”

高瓴人工智能学院的副院长张国富教授曾多次表示：“我们想和北面两所学校（作者注：清、北）做不一样的 AI。”

如何不一样？人大有自己的考虑，我们可以先从科学方法范式的变革说起。

（以下部分内容借鉴了高瓴人工智能学院院长文继荣教授11月19日的演讲内容，未经文继荣院长本人确认，仅代表个人见解。）

一、y = f(x) ：科学方法的变革

1、传统方法

在以往的数百年中，无论是自然科学还是社会科学，思考其研究方法的核心本质，总可以归结为如下公式：

人大：和清、北做不一样的AI

所有研究都只是为了从纷繁复杂的世界，从多变的样本当中寻找出隐藏在表象背后的客观规律，一个不变的、稳定的规律。特别是在自然科学领域，我们总希望能够将客观规律表示成一个模型或方程。

这种方法，本质上是一种科学主义传统或者理性主义传统，我们希望能够从直觉或少量样本中通过归纳、演绎等方法得出这样的模型、函数或方程。一旦掌握了这样的模型/函数/方程，我们就可以拿着它来解释各种各样看起来比较多变的现象，去分析无常的世界中那些稳定不变的东西。

人大：和清、北做不一样的AI

在人类发展历史上，尤其是在科学进程上，我们一直在各个领域探寻尽可能简单优美的模型。这个模型越简单，越优美，越具有普适性，我们就会觉得这个模型越好。

这种方法在自然科学领域取得了很大的成功，也已经成为现代社会最为核心的推动力。可以说今天生活中的方方面面都是这种思想指导下的科技所带来的成果。

我们找到了自然中这样的一些稳定的、不变的、客观的规律。

但我们也应当注意到，在过去这么多年里，当我们把这种科学方法应用在社会科学当中时，我们发现了很多困难。例如我们用公式来描述经济规律、预测股市等，常常会出现预测之外的结果。

这说明，这种方法在社会科学中并不适用。

原因在于，社会科学是一个复杂的、非线性的、（超）多变量的系统，通过小数据/直觉，往往难以揭示这样系统背后真正的不变规律。

更重要的则在于，自然科学可以通过大量的实验来收集大量数据，而社会科学则很难通过重复实验来获取数据，因此存在样本数据稀少的情况。这也给人们留下了“社会科学并不科学”的印象。

2、大数据方法/经验方法

大数据时代的出现，给我们提供一个前所未有的机会。我们突然有机会收集很多数据，尤其是在一些以前很难做实验的场合来收集数据。我们发现当我们收集数据越来越多的时候，我们甚至可以不用去找数据背后隐藏的模型。

人大：和清、北做不一样的AI

大数据提供了这样一种方法，可以直接从输入到输出的映射，相当于是纯经验的方法。我们知道如果经验足够多，我们可以不用去寻找模型，绕开模型，直接用经验解决问题。这是用大数据解决办法的本质。

这种方法在很多领域已经取得成功，但是这个方法有一个问题，即，很多时候数据不够多。很多情况下，你会发现你的数据不能覆盖到所有的情况。

3、新范式：大数据+智能

人工智能，是在大数据背景下出现的新方法：尽管问题很复杂，我还是能够找到数据背后的模型，从而把握事物的不变性和规律性。它的方法与传统方法的不同，它是从“海量的样本数据”中寻求“复杂模型”。

人大：和清、北做不一样的AI

以前自然科学的方法是从少量的数据、少量的实验样本里面寻求简单的模型，它可以用在自然科学方面，但是社会科学不可以，因为问题太复杂、变量太多。

但是现在有了基于大数据的人工智能方法，我们会发现可以从海量的数据里面寻求复杂的模型。

一个系统可能有几千万、几十亿的变量，背后可能是非常复杂的非线性问题，没有关系，我们仍然可以构建出来这样的模型。

深度学习，正是这种方法的代表，它能够从海量数据中非常高效地学习出复杂模型。事实上，深度学习不仅仅只是去做人脸识别、自动驾驶，它对社会科学同样有效，将之应用于社会科学，将产生颠覆性的革命。因为它给我们提供了一种有效的研究复杂问题的新方法。

这种新的科学范式就是：大数据+人工智能的研究范式。

二、新范式初探

深度神经网络，可以理解为一个非常复杂的函数 f。在计算机视觉中，我们用它来表征建模人看见一个物体时发生了什么，现在我们在这方面已经取得了非常好的成绩，在特定领域已经能够超过人类的表现。

那么将这种方法应用到社会科学中会有什么不一样的呢？

文继荣教授举了几个例子：

1、+经济学

人大：和清、北做不一样的AI

文继荣介绍，他们从30万条新闻中，将产业转型的数据抽取出来。其中的 x 就是这 30万的新闻数据，而通过建立模型，绘制除了如图所示的产业转移结果 y = 产业转移数(时间，省份1，省份2)。把其中低频的数据去掉后，得到右边的图。

从中便可以很容易地看出，中国的产业转移是以北、上、广为中心；而三地转移情况却各不相同，北京往周边转，上海往中东部转，而广州则仍然转在本地。通过这种方式，便可以将原有的数据变得形象化、可视化，从而揭示出原来不可能发现的经济规律。

2、+社会学

人大：和清、北做不一样的AI

文继荣继续举了与社科院合作的一个成果，研究意识形态问题。他们根据 1.7亿用户、27亿的微博数据（其中有几百万的大V），发现很多有意思的现象。例如他们从微博数据中发现事实上中国近年来并没有严重的民粹主义，且呈现民粹主义呈现多元化，民众更关心国内事务和政策。

3、+ 政治学

第三个例子是文继荣在微软期间的工作。2012年文继荣通过公开的网络数据来分析奥巴马和罗姆尼的民意基础，从而预测美国总统大选，结果相当准确。文继荣打趣说，这个模型放到现在再去预测已经不准了，“因为美国水军已经成长起来了”。

4、+ 历史学

人大：和清、北做不一样的AI

注：右侧的灾害分布图来源于网络，此处仅为示例

历史，也同样可以做。我们可以把史料数据化，通过各种方式来建模，比如说灾害（水灾、旱灾、蝗灾）在历朝历代是怎么发生的，产生什么样的影响，跟人口出生、GDP、战争、瘟疫等等有什么关系等。我们可以把这些问题转化成数据分析的问题来做，现在的技术已经可以做到，但距离真正的数据化历史还很遥远，这涉及到如何去构建一个庞大的技术平台。