智能制造网

登录

张志华:机器学习=统计与计算之恋

发布时间:2016-06-27
浏览次数:32284
  【中国智能制造网 专家学者】近人工智能或者机器学习的强势崛起,特别是刚刚过去的AlphaGo和韩国棋手李世石九段的人机大战,再次让我们领略到了人工智能或机器学习技术的巨大潜力,同时也深深地触动了我。面对这一的技术大变革,作为10多年以来一直从事统计机器学习一线教学与研究的学者,希望借此机会和大家分享我个人的一些思考和反思。

  张志华老师和他的学生们
  
  张志华,上海交通大学计算机科学与工程系教授,上海交通大学数据科学研究中心兼职教授,计算机科学与技术和统计学双学科的博士生指导导师。在加入上海交通大学之前,曾担任浙江大学计算机学院教授和浙江大学统计科学中心兼职教授,主要从事人工智能、机器学习与应用统计学领域的教学与研究,迄今在国际重要学术期刊和重要的计算机学科会议上发表70余篇论文,是美国“数学评论”的特邀评论员,国际机器学习旗舰刊物Journal of Machine Learning Research的执行编委。其公开课《机器学习导论》和《统计机器学习》受到广泛关注。
  
  大家好,今天我演讲的主题是“机器学习:统计与计算之恋”。我用了一个很浪漫的名字,但是我的心情是诚惶诚恐的。一则我担心自己没有能力驾驭这么大的主题,二则我其实是一个不解风情之人,我的观点有些可能不符合国内学术界的主流声音。
  
  近人工智能或者机器学习的强势崛起,特别是刚刚过去的AlphaGo和韩国棋手李世石九段的人机大战,再次让我们领略到了人工智能或机器学习技术的巨大潜力,同时也深深地触动了我。面对这一的技术大变革,作为10多年以来一直从事统计机器学习一线教学与研究的学者,希望借此机会和大家分享我个人的一些思考和反思。
  
  在这场人工智能发展的盛事里,我突然发现,对我们中国的学者来说,好像是一群看热闹的旁观者。不管你承认还是不承认,事实就是和我一代的或者更早的学者也只能作为旁观者了。我们能做的事情是帮助你们---中国年轻的一代,让你们在人工智能发展的大潮中有竞争力,做出标杆性的成就,创造人类文明价值,也让我有个加油欢呼的主队。
  
  我的演讲主要包含两部分,在部分,首先对机器学习发展做一个简要的回顾,由此探讨机器学习现象所蕴含的内在本质,特别是讨论它和统计学、计算机科学、运筹优化等学科的联系,以及它和工业界、创业界相辅相成的关系。在第二部分,试图用“多级”、“自适应”以及“平均”等概念来简约纷繁多彩的机器学习模型和计算方法背后的一些研究思路或思想。
  
  部分:回顾和反思
  
  1、什么是机器学习
  
  毋庸置疑,大数据和人工智能是当今是为时髦的名词,它们将为我们未来生活带来深刻的变革。数据是燃料,智能是目标,而机器学习是火箭,即通往智能的技术途径。机器学习大师MikeJordan和TomMitchell认为机器学习是计算机科学和统计学的交叉,同时是人工智能和数据科学的核心。
  
  通俗地说,机器学习就是从数据里面挖掘出有用的价值。数据本身是死的,它不能自动呈现出有用的信息。怎么样才能找出有价值的东西呢?步要给数据一个抽象的表示,接着基于表示进行建模,然后估计模型的参数,也就是计算,为了应对大规模的数据所带来的问题,我们还需要设计一些的实现手段。
  
  我把这个过程解释为机器学习等于矩阵+统计+优化+算法。首先,当数据被定义为一个抽象的表示时,往往形成一个矩阵或者一个图,而图其实也是可以理解为矩阵。统计是建模的主要工具和途径,而模型求解大多被定义为一个优化问题,特别是,频率统计方法其实就是一个优化问题。当然,贝叶斯模型的计算牵涉随机抽样方法。而之前说到面对大数据问题的具体实现时,需要一些的方法,计算机科学中的算法和数据结构里有不少好的技巧可以帮助我们解决这个问题。
  
  借鉴Marr的关于计算机视觉的三级论定义,我把机器学习也分为三个层次:初级、中级和。初级阶段是数据获取以及特征的提取。中级阶段是数据处理与分析,它又包含三个方面,首先是应用问题导向,简单地说,它主要应用已有的模型和方法解决一些实际问题,我们可以理解为数据挖掘;第二,根据应用问题的需要,提出和发展模型、方法和算法以及研究支撑它们的数学原理或理论基础等,我理解这是机器学习学科的核心内容。第三,通过推理达到某种智能。后,阶段是智能与认知,即实现智能的目标。从这里,我们看到,数据挖掘和机器学习本质上是一样的,其区别是数据挖掘更接地于数据库端,而机器学习则更接近于智能端。
  
  2、机器学习的发展历程
  
  我们来梳理一下机器学习的发展历程。上个世纪90年代以前,我对此认识不够,了解不深,但我觉得当时机器学习处于发展的平淡期。而1996-2006年是其黄金时期,主要标志是学术界涌现出一批重要成果,比如,基于统计学习理论的SVM和boosting等分类方法,基于再生核理论的非线性数据分析与处理方法,以lasso为代表的稀疏学习模型及应用等等。这些成果应该是统计界和计算机科学界共同努力成就的。
  
  然而,机器学习也经历了一个短暂的徘徊期。这个我感同身受,因为那时我在伯克利的博士后工作结束,正面临找工作,因此当时我导师MikeJordan教授和我进行了多次交流,他一方面认为机器学习正处于困难期,工作职位已趋于饱满,另一方面他向我一再强调,把统计学引入到机器学习的思路是对的,因为以统计学为基础的机器学习作为一个学科其地位已经被奠定。主要问题是机器学习是一门应用学科,它需要在工业界发挥出作用,能为他们解决实际问题。幸运的是,这个时期很快就过去了。可能在座大多数人对这个时期没有印象,因为中国学术发展往往要慢半拍。
  
  现在我们可以理直气壮地说机器学习已经成为计算机科学和人工智能的主流学科。主要体现在下面三个标志性的事件。
  
  首先,2010年2月,伯克利的MikeJordan教授和CMU的TomMitchell教授同时被选为美国工程院院士,同年5月份,MikeJordan和斯坦福的统计学家JeromeFriedman又被选为美国科学院院士。我们知道许多机器学习算法比如CART、MARS和GBM等是Friedman教授等提出。
  
  随后几年一批在机器学习做出重要贡献的学者先后被选为美国科学院或工程院院士。比如,人工智能专家的DaphneKoller,Boosting的主要建立者RobertSchapire,Lasso的提出者RobertTibshirani,华裔统计学习专家郁彬老师,统计机器机器学习专家的LarryWasserman,的优化算法专家StephenBoyd等。同时,机器学习专家、深度学习的Toronto大学GeoffreyHinton以及该校统计学习专家NancyReid今年分别被选为美国工程院和科学院的外籍院士。
  
  因此,我理解在美国一个学科能否被接纳为主流学科的一个重要标志是其代表科学家能否被选为院士。我们知道TomMitchell是机器学习早期建立者和守护者,而MikeJordan是统计机器学习的奠基者和推动者。
  
  这个遴选机制无疑是先进的,它可以促使学科良性发展,适应社会动态发展和需求。相反,如果某某通过某种方式被评选为本国院士,然后他们就掌握了该国学术话语权和资源分配权。这种机制可能会造成一些问题,比如一些过剩学科或者夕阳学科会得到过多的发展资源,而主流学科则被边缘化。
  
  其次,2011年的图灵奖授予了UCLA的JudeaPearl教授,他主要的研究领域是概率图模型和因果推理,这是机器学习的基础问题。我们知道,图灵奖通常颁给做纯理论计算机科学的学者,或者早期建立计算机架构的学者,而把图灵奖授予JudeaPearl教授具有方向标的意义。
  
  第三,是当下的热点,比如说深度学习、AlphaGo、无人驾驶汽车、人工智能助理等等对工业界的巨大影响。机器学习切实能被用来帮助工业界解决问题。工业界对机器学习领域的才人有大量的需求,不仅仅需要代码能力强的工程师,也需要有数学建模和解决问题的科学家。
  
  让我们具体地看看工业界和机器学习之间的关系。我之前在谷歌研究院做过一年的访问科学家,我有不少同事和以前学生在IT界工作,平时实验室也经常接待一些公司的来访和交流,因此了解一些IT界情况。
  
  我理解当今IT的发展已从传统的微软模式转变到谷歌模式。传统的微软模式可以理解为制造业,而谷歌模式则是服务业。谷歌搜索完全是免费的,服务社会,他们的搜索做得越来越,同时创造的财富也越来越丰厚。
  
  财富蕴藏在数据中,而挖掘财富的核心技术则是机器学习。深度学习作为当今有活力一个机器学习方向,在计算机视觉、自然语言理解、语音识别、智力游戏等领域的颠覆性成就。它造就了一批新兴的创业公司。
  
  3、统计与计算
  
  我的重点还是要回到学术界。我们来重点讨论统计学和计算机科学的关系。CMU统计系教授Larry Wasserman近刚被选为美国科学院院士。他写了一本名字非常霸道的书,《AllofStatistics》。在这本书引言部分关于统计学与机器学习有个非常有趣的描述。他认为原来统计是在统计系,计算机是在计算机系,这两个是不相来往的,而且互相都不认同对方的价值。计算机学家认为那些统计理论没有用,不解决问题,而统计学家则认为计算机学家只是在重新建造轮子,没有新意。然而,他认为这个情况现在改变了,统计学家认识到计算机学家正在做出的贡献,而计算机学家也认识到统计的理论和方法论的普遍性意义。所以,Larry写了这本书,可以说这是一本为统计学者写的计算机领域的书,为计算机学者写的统计领域的书。
  
  现在大家达成了一个共识:如果你在用一个机器学习方法,而不懂其基础原理,这是一件非常可怕的事情。也是由于这个原因,目前学术界对深度学习还是心存疑虑的。深度学习已经展示其强大的实际应用的效果,但其中的原理目前大家还不是太清楚。
  
  让我们进一步地来分析统计与计算机的关系。计算机学家通常具有强的计算能力和解决问题的直觉,而统计学家长于理论分析,具有强的建模能力,因此,两者有很好的互补性。
  
  Boosting,SVM和稀疏学习是机器学习界也是统计界,在近十年或者是近二十年来,活跃的方向,现在很难说谁比谁在其中做的贡献更大。比如,SVM的理论其实很早被Vapnik等提出来了,但计算机界发明了一个有效的求解算法,而且后来又有非常好的实现代码被陆续开源给大家使用,于是SVM就变成分类算法的一个基准模型。再比如,KPCA是由计算机学家提出的一个非线性降维方法,其实它等价于经典MDS。而后者在统计界是很早就存在的,但如果没有计算机界从新发现,有些好的东西可能就被埋没了。
  
  机器学习现在已成为统计学的一个主流方向,许多统计系纷纷招聘机器学习领域的博士为教员。计算在统计已经变得越来越重要,传统多元统计分析是以矩阵为计算工具,现代高维统计则是以优化为计算工具。另一方面,计算机学科开设统计学课程,比如统计学中的核心课程“经验过程”。
  
  我们来看机器学习在计算机科学占什么样的地位。近有一本还没有出版的书“Foundation of Data Science,by AvrimBlum,JohnHopcroft,and Ravindran Kannan,”作者之一JohnHopcroft是图灵奖得主。在这本书前沿部分,提到了计算机科学的发展可以分为三个阶段:早期、中期和当今。早期就是让计算机可以运行起来,其重点在于开发程序语言、编译原理、操作系统,以及研究支撑它们的数学理论。中期是让计算机变得有用,变得。重点在于研究算法和数据结构。第三个阶段是让计算机具有更广泛的应用,发展重点从离散类数学转到概率和统计。那我们看到,第三阶段实际上就是机器学习所关心的。
 

上一篇:专访纪宏:大数据形成理论学科尚需时日

下一篇:大数据也能创造错觉 我们不应屈服在数据废墟下

相关资讯:

分享到: