當(dāng)前位置：首頁 > BIM工程師 > 正文

bim工程師找什么工作bim工程師能應(yīng)聘什么職位

建造師
BIM工程師
2025-07-27
6

　　本文轉(zhuǎn)自中國計算機學(xué)會，作者：張志華，來源：《中國計算機學(xué)會通訊》2016年第11期

　　近年來，人工智能的強勢崛起，特別是剛剛過去的AlphaGo和韓國九段棋手李世石的人機大戰(zhàn)，讓我們領(lǐng)略到了人工智能技術(shù)的巨大潛力。數(shù)據(jù)是載體，智能是目標(biāo)，而機器學(xué)習(xí)是從數(shù)據(jù)通往智能的技術(shù)途徑。因此，機器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心，是現(xiàn)代人工智能的本質(zhì)。

　　通俗地說，機器學(xué)習(xí)就是從數(shù)據(jù)中挖掘出有價值的信息。數(shù)據(jù)本身是無意識的，它不能自動呈現(xiàn)出有用的信息。怎樣才能找出有價值的東西呢？第一步要給數(shù)據(jù)一個抽象的表示；接著基于表示進(jìn)行建模；然后估計模型的參數(shù)，也就是計算；為了應(yīng)對大規(guī)模的數(shù)據(jù)所帶來的問題，我們還需要設(shè)計一些高效的實現(xiàn)手段，包括硬件層面和算法層面。統(tǒng)計是建模的主要工具和途徑，而模型求解大多被定義為一個優(yōu)化問題，特別是，頻率派方法其實就是一個優(yōu)化問題。而貝葉斯模型的計算則往往牽涉蒙特卡洛(Monte Carlo)隨機抽樣方法。因此，機器學(xué)習(xí)是計算機科學(xué)和統(tǒng)計學(xué)的交叉學(xué)科。

　　借鑒計算機視覺理論創(chuàng)始人馬爾(Marr)的關(guān)于計算機視覺的三級論定義，我把機器學(xué)習(xí)也分為三個層次：初級、中級和高級。初級階段是數(shù)據(jù)獲取以及特征的提取。中級階段是數(shù)據(jù)處理與分析，它又包含三個方面：首先是應(yīng)用問題導(dǎo)向，簡單地說，它主要應(yīng)用已有的模型和方法解決一些實際問題，我們可以理解為數(shù)據(jù)挖掘；其次，根據(jù)應(yīng)用問題的需要，提出和發(fā)展模型、方法和算法以及研究支撐它們的數(shù)學(xué)原理或理論基礎(chǔ)等，這是機器學(xué)習(xí)學(xué)科的核心內(nèi)容；第三，通過推理達(dá)到某種智能。高級階段是智能與認(rèn)知，即實現(xiàn)智能的目標(biāo)。數(shù)據(jù)挖掘和機器學(xué)習(xí)本質(zhì)上是一樣的，其區(qū)別是數(shù)據(jù)挖掘更接近于數(shù)據(jù)端，而機器學(xué)習(xí)則更接近于智能端。

統(tǒng)計與計算

　　今年剛被選為美國科學(xué)院院士的卡內(nèi)基梅隆大學(xué)統(tǒng)計系教授沃塞曼(Larry Wasserman)寫了一本名字非常霸道的書：《統(tǒng)計學(xué)完全教程》(All of Statistics)。這本書的引言部分有一個關(guān)于統(tǒng)計學(xué)與機器學(xué)習(xí)非常有趣的描述。沃塞曼認(rèn)為，原來統(tǒng)計是在統(tǒng)計系，計算機是在計算機系，這兩者是不相來往的，而且互相都不認(rèn)同對方的價值。計算機學(xué)家認(rèn)為那些統(tǒng)計理論沒有用，不解決問題，而統(tǒng)計學(xué)家則認(rèn)為計算機學(xué)家只是在“重新發(fā)明輪子”，沒有新意。然而，他認(rèn)為現(xiàn)在情況改變了，統(tǒng)計學(xué)家認(rèn)識到計算機學(xué)家正在做出的貢獻(xiàn)，而計算機學(xué)家也認(rèn)識到統(tǒng)計的理論和方法論的普遍性意義。所以，沃塞曼寫了這本書，可以說這是一本為統(tǒng)計學(xué)者寫的計算機領(lǐng)域的書，為計算機學(xué)者寫的統(tǒng)計領(lǐng)域的書。

　　現(xiàn)在大家達(dá)成了一個共識：如果你在用一個機器學(xué)習(xí)方法，而不懂其基礎(chǔ)原理，這是一件非常可怕的事情。正是由于這個原因，目前學(xué)術(shù)界對深度學(xué)習(xí)還是心存疑慮的。盡管深度學(xué)習(xí)已經(jīng)在實際應(yīng)用中展示出其強大的能力，但其中的原理目前大家還不是太清楚。

　　計算機學(xué)家通常具有強大的計算能力和解決問題的直覺，而統(tǒng)計學(xué)家擅長于理論分析和問題建模，因此，兩者具有很好的互補性。Boosting、支持向量機(SVM)、集成學(xué)習(xí)和稀疏學(xué)習(xí)是機器學(xué)習(xí)界也是統(tǒng)計界在近十年或者是近二十年來最為活躍的方向，這些成果是統(tǒng)計界和計算機科學(xué)界共同努力成就的。例如，數(shù)學(xué)家瓦普尼克(Vapnik) 等人早在20世紀(jì)60年代就提出了支持向量機的理論，但直到計算機界于90年代末發(fā)明了非常有效的求解算法，并隨著后續(xù)大量優(yōu)秀實現(xiàn)代碼的開源，支持向量機現(xiàn)在成為了分類算法的一個基準(zhǔn)模型。再比如，核主成分分析(Kernel Principal Component Analysis, KPCA)是由計算機學(xué)家提出的一個非線性降維方法，其實它等價于經(jīng)典多維尺度分析(Multi-Dimensional Scaling, MDS)。而后者在統(tǒng)計界是很早就存在的，但如果沒有計算機界重新發(fā)現(xiàn)，有些好的東西可能就被埋沒了。

　　世界上公認(rèn)最好的兩個統(tǒng)計系來自加州大學(xué)伯克利分校和斯坦福大學(xué)。加州大學(xué)伯克利分校是美國統(tǒng)計學(xué)的發(fā)源地之一，可以說是當(dāng)今統(tǒng)計學(xué)和機器學(xué)習(xí)的中心，其機器學(xué)習(xí)領(lǐng)域的教授通常同時在計算機系和統(tǒng)計系都有正式職位。已故的布萊曼(Leo Breiman)教授是統(tǒng)計機器學(xué)習(xí)的主要奠基人，他是眾多統(tǒng)計學(xué)習(xí)方法的主要貢獻(xiàn)者，比如Bagging、分類回歸樹(CART)、隨機森林以及非負(fù)garrote稀疏模型等。布萊曼是喬丹(Michael Jordan)教授的伯樂，當(dāng)初是他力主把喬丹從麻省理工學(xué)院引進(jìn)到伯克利分校的。可以說，伯克利分校的統(tǒng)計系成就了喬丹，反過來他也為伯克利分校的統(tǒng)計學(xué)發(fā)展創(chuàng)造了新的活力，為機器學(xué)習(xí)領(lǐng)域培養(yǎng)了一大批優(yōu)秀的學(xué)者，建立了無可代替的功勛。

　　斯坦福大學(xué)統(tǒng)計系的一個主要方向就是統(tǒng)計學(xué)習(xí)，比如《統(tǒng)計學(xué)習(xí)基礎(chǔ)》(Elements of statistical learning)一書就是統(tǒng)計系幾位著名教授撰寫的。斯坦福大學(xué)計算機科學(xué)系的人工智能方向一直在世界占主導(dǎo)地位，特別是在不確定推理、概率圖模型、概率機器人等領(lǐng)域成就斐然。他們的網(wǎng)絡(luò)公開課“機器學(xué)習(xí)”、“概率圖模型”以及“人工智能”等讓全世界學(xué)者受益。有意思的是，斯坦福大學(xué)和伯克利分校具有令人羨慕的合作競爭關(guān)系。一年一度的聯(lián)合統(tǒng)計學(xué)日是兩校統(tǒng)計系的交流平臺。伯克利分校教授布萊曼和斯坦福大學(xué)教授弗萊德曼(Jerome Friedman)合作建立了許多重要統(tǒng)計學(xué)習(xí)模型。此外，兩校教授羅素(Stuart Russell)和諾維格(Peter Norvig)合作的《人工智能：一種現(xiàn)代的方法》(Artificial Intelligence: A Modern Approach)一書是人工智能的集大成。

　　卡內(nèi)基梅隆大學(xué)是一個非常獨特的學(xué)校，它并不是美國傳統(tǒng)的常春藤大學(xué)。可以說，它是以計算機科學(xué)為立校之本，是世界第一個建立機器學(xué)習(xí)系的學(xué)校。米歇爾(Tom Mitchell)教授是機器學(xué)習(xí)的早期建立者之一和守護(hù)者，他一直為該校本科生講授“機器學(xué)習(xí)”課程。這個學(xué)校的統(tǒng)計學(xué)同樣也是一流，是貝葉斯統(tǒng)計學(xué)的世界研究中心。

　　在機器學(xué)習(xí)領(lǐng)域，多倫多大學(xué)有著舉足輕重的地位，它的機器學(xué)習(xí)研究組云集了一批世界級的學(xué)者，在《科學(xué)》(Science)和《自然》(Nature)發(fā)表多篇開創(chuàng)性的論文，實屬罕見。辛頓(Geoffrey Hinton)教授是偉大的思想家，更是實踐者。他是神經(jīng)網(wǎng)絡(luò)的建立者之一，是誤差反向傳播(BP)算法和深度學(xué)習(xí)的主要貢獻(xiàn)者。正是由于他的不懈努力，神經(jīng)網(wǎng)絡(luò)迎來了大爆發(fā)。尼爾(Radford Neal)教授是辛頓的學(xué)生，他在貝葉斯統(tǒng)計領(lǐng)域，特別是在蒙特卡洛馬爾科夫鏈模擬方法(MCMC)方面做出了一系列的重要工作,還開源了許多貝葉斯統(tǒng)計方法程序包，并一直致力于優(yōu)化R語言。

機器學(xué)習(xí)的發(fā)展歷程

　　對于20世紀(jì)90年代以前的發(fā)展歷程，我認(rèn)識不夠，了解不深，覺得當(dāng)時機器學(xué)習(xí)處于發(fā)展的相對平淡期。而20世紀(jì)90年代中期到21世紀(jì)00年代中期是機器學(xué)習(xí)發(fā)展的黃金時期，主要標(biāo)志是學(xué)術(shù)界涌現(xiàn)出一批重要成果，比如，基于統(tǒng)計學(xué)習(xí)理論的支持向量機、隨機森林和Boosting等集成分類方法，概率圖模型，基于再生核理論的非線性數(shù)據(jù)分析與處理方法，非參數(shù)貝葉斯方法，基于正則化理論的稀疏學(xué)習(xí)模型及應(yīng)用等等。這些成果奠定了統(tǒng)計學(xué)習(xí)的理論基礎(chǔ)和框架。

　　然而，機器學(xué)習(xí)在21世紀(jì)00年代末也經(jīng)歷了一個短暫的徘徊期。那時我在加州大學(xué)伯克利分校的博士后工作結(jié)束，正面臨找工作，導(dǎo)師喬丹教授和我進(jìn)行了多次交流，他一方面認(rèn)為機器學(xué)習(xí)正處于困難期，工作職位已趨于飽滿，另一方面他向我一再強調(diào)，把統(tǒng)計學(xué)引入到機器學(xué)習(xí)的思路是對的，因為以統(tǒng)計學(xué)為基礎(chǔ)的機器學(xué)習(xí)作為一個學(xué)科其地位已經(jīng)被奠定。主要問題是機器學(xué)習(xí)是一門應(yīng)用學(xué)科，它需要在工業(yè)界發(fā)揮作用，能為他們解決實際問題。幸運的是，這個時期很快就過去了。

　　現(xiàn)在我們可以理直氣壯地說機器學(xué)習(xí)已經(jīng)成為計算機科學(xué)和人工智能的主流學(xué)科。這主要體現(xiàn)在下面三個標(biāo)志性的事件。

　　第一，2010年2月，加州大學(xué)伯克利分校教授喬丹和卡內(nèi)基梅隆大學(xué)教授米歇爾同時當(dāng)選美國工程院院士，同年5月份，喬丹教授又當(dāng)選為美國科學(xué)院院士。隨后幾年，概率圖模型專家科勒(Daphne Koller)當(dāng)選為美國工程院院士，理論計算機學(xué)家和機器學(xué)習(xí)專家、Boosting的主要建立者之一夏皮爾(Robert Schapire)當(dāng)選為美國工程院院士和科學(xué)院院士。期間，斯坦福大學(xué)的統(tǒng)計學(xué)家弗萊德曼和提布施瓦尼(Robert Tibshirani)、伯克利分校的華裔統(tǒng)計學(xué)家郁彬，以及卡內(nèi)基梅隆大學(xué)統(tǒng)計學(xué)家沃塞曼也先后被選為美國科學(xué)院院士。這是一個非常有趣的現(xiàn)象，因為這些學(xué)者都在機器學(xué)習(xí)領(lǐng)域做出了非常重要的貢獻(xiàn)，比如弗萊德曼的工作包括分類回歸樹、多元自適應(yīng)回歸(Multivariate Adaptive Regression Splines, MARS)和梯度推進(jìn)機(Gradient Boosting Machines, GBM)等經(jīng)典機器學(xué)習(xí)算法，而提布施瓦尼是最小絕對收縮和選擇算子(Least Absolute Shrinkage and Selection Operator, LASSO)的提出者。此外，優(yōu)化算法專家鮑德(Stephen Boyd)當(dāng)選美國工程院院士，他和范登貝格(Lieven Vandenberghe)的合著《凸優(yōu)化》(Convex Optimization)可以說風(fēng)靡機器學(xué)習(xí)界。今年，機器學(xué)習(xí)專家、深度學(xué)習(xí)的領(lǐng)袖、多倫多大學(xué)教授辛頓以及該校統(tǒng)計學(xué)習(xí)專家瑞德(Nancy Reid)分別被選為美國工程院和科學(xué)院的外籍院士。

　　喬丹教授在當(dāng)時我祝賀他當(dāng)選為院士時的回信中說，如果以他當(dāng)選院士這種方式來看待機器學(xué)習(xí)獲得學(xué)術(shù)界的認(rèn)同會更有意義。因此，我理解在美國一個學(xué)科能否被接納為主流學(xué)科的一個重要標(biāo)志是，其代表科學(xué)家能否被選為院士。我們知道米歇爾是機器學(xué)習(xí)早期建立者之一，而喬丹是統(tǒng)計機器學(xué)習(xí)的主要奠基者之一。

　　第二，2011年的圖靈獎授予了加州大學(xué)洛杉磯分校教授珀爾(Judea Pearl)，他主要的研究領(lǐng)域是概率圖模型和因果推理，這是機器學(xué)習(xí)的基礎(chǔ)問題。圖靈獎通常頒給純理論計算機學(xué)者，或者早期建立計算機架構(gòu)或框架的學(xué)者。而把圖靈獎授予珀爾教授具有方向標(biāo)的意義。此外，去年《科學(xué)》和《自然》雜志連續(xù)發(fā)表了4篇關(guān)于機器學(xué)習(xí)的綜述論文。而且，近幾年在這兩個雜志上發(fā)表的計算機學(xué)科論文幾乎都來自機器學(xué)習(xí)領(lǐng)域。

　　第三，機器學(xué)習(xí)切實能被用來幫助工業(yè)界解決問題。特別是當(dāng)下的熱點，比如說深度學(xué)習(xí)、AlphaGo、無人駕駛汽車、人工智能助理等對工業(yè)界的巨大影響。當(dāng)今IT的發(fā)展已從傳統(tǒng)的微軟模式轉(zhuǎn)變到谷歌模式。傳統(tǒng)的微軟模式可以理解為制造業(yè)，而谷歌模式則是服務(wù)業(yè)。谷歌搜索完全是免費的，服務(wù)社會，他們的搜索做得越來越極致，同時創(chuàng)造的財富也越來越豐厚。

　　財富蘊藏在數(shù)據(jù)中，而挖掘財富的核心技術(shù)則是機器學(xué)習(xí)，因此谷歌認(rèn)為自己是一家機器學(xué)習(xí)公司。深度學(xué)習(xí)作為當(dāng)今最有活力的機器學(xué)習(xí)方向，在計算機視覺、自然語言理解、語音識別、智力游戲等領(lǐng)域的顛覆性成就，造就了一批新興的創(chuàng)業(yè)公司。工業(yè)界對機器學(xué)習(xí)領(lǐng)域的人才有大量的需求。不僅僅需要代碼能力強的工程師，也需要有數(shù)學(xué)建模和解決問題的科學(xué)家。

　　最近有一本尚未出版的書《數(shù)據(jù)科學(xué)基礎(chǔ)》(Foundation of Data Science)，作者之一霍普克洛夫特(John Hopcroft)是圖靈獎得主。在這本書前沿部分，提到了計算機科學(xué)的發(fā)展可以分為三個階段：早期、中期和當(dāng)今。早期就是讓計算機可以運行起來，其重點在于開發(fā)程序語言、編譯技術(shù)、操作系統(tǒng)，以及研究支撐它們的數(shù)學(xué)理論。中期是讓計算機變得有用，變得高效，重點在于研究算法和數(shù)據(jù)結(jié)構(gòu)。第三個階段是讓計算機具有更廣泛的應(yīng)用，發(fā)展重點從離散類數(shù)學(xué)轉(zhuǎn)到概率和統(tǒng)計。我曾經(jīng)和霍普克洛夫特交談過幾次，他認(rèn)為計算機科學(xué)發(fā)展到今天，機器學(xué)習(xí)是核心。他正在讀機器學(xué)習(xí)和深度學(xué)習(xí)方面的書，并計劃為本科生講授機器學(xué)習(xí)課程。

　　現(xiàn)在計算機界戲稱機器學(xué)習(xí)為“全能學(xué)科”，它無所不在。除了有其自身的學(xué)科體系外，機器學(xué)習(xí)還有兩個重要的輻射功能。一是為應(yīng)用學(xué)科提供解決問題的方法與途徑。對于一個應(yīng)用學(xué)科來說，機器學(xué)習(xí)的目的就是把一些難懂的數(shù)學(xué)翻譯成讓工程師能夠?qū)懗龀绦虻膫未a。二是為一些傳統(tǒng)學(xué)科，比如統(tǒng)計、理論計算機科學(xué)、運籌優(yōu)化等找到新的研究問題。因此，大多數(shù)世界著名大學(xué)的計算機學(xué)科把機器學(xué)習(xí)或人工智能列為核心方向，擴大機器學(xué)習(xí)領(lǐng)域的教師規(guī)模，而且至少要保持兩三個機器學(xué)習(xí)研究方向具有一流競爭力。有些計算機專業(yè)有1/3甚至1/2的研究生選修機器學(xué)習(xí)或人工智能。

　　機器學(xué)習(xí)現(xiàn)在已成為統(tǒng)計學(xué)的一個主流方向，許多著名大學(xué)的統(tǒng)計系紛紛從機器學(xué)習(xí)領(lǐng)域招聘教授，比如斯坦福大學(xué)統(tǒng)計系新進(jìn)的兩位助理教授來自機器學(xué)習(xí)專業(yè)。計算在統(tǒng)計領(lǐng)域已經(jīng)變得越來越重要，傳統(tǒng)多元統(tǒng)計分析是以矩陣分解為計算工具，現(xiàn)代高維統(tǒng)計則是以優(yōu)化為計算工具。

機器學(xué)習(xí)發(fā)展的啟示

　　機器學(xué)習(xí)的發(fā)展歷程告訴我們：發(fā)展一個學(xué)科需要一個務(wù)實的態(tài)度。時髦的概念和名字無疑對學(xué)科的普及有一定的推動作用，但學(xué)科的根本還是所研究的問題、方法、技術(shù)和支撐的基礎(chǔ)等，以及為社會產(chǎn)生的價值。

　　“機器學(xué)習(xí)”是個很酷的名字，簡單地按照字面理解，它的目的是讓機器能像人一樣具有學(xué)習(xí)能力。但在其十年的黃金發(fā)展期，機器學(xué)習(xí)界并沒有過多地炒作“智能”或者“認(rèn)知”，而是關(guān)注于引入統(tǒng)計學(xué)等來建立學(xué)科的理論基礎(chǔ)，面向數(shù)據(jù)分析與處理，以無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)為兩大主要的研究問題，提出和開發(fā)了一系列模型、方法和計算算法等，切實地解決了工業(yè)界所面臨的一些實際問題。近幾年，因為大數(shù)據(jù)的驅(qū)動和計算能力的極大提升，一批面向機器學(xué)習(xí)的底層架構(gòu)先后被開發(fā)出來。神經(jīng)網(wǎng)絡(luò)其實在20世紀(jì)80年代末或90年代初就被廣泛研究，但后來沉寂了。近幾年，基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)強勢崛起，給工業(yè)界帶來了深刻的變革和機遇。深度學(xué)習(xí)的成功不是源自腦科學(xué)或認(rèn)知科學(xué)的進(jìn)展，而是因為大數(shù)據(jù)的驅(qū)動和計算能力的極大提升。

　　機器學(xué)習(xí)的發(fā)展詮釋了多學(xué)科交叉的重要性和必要性。然而這種交叉不是簡單地彼此知道幾個名詞或概念就可以的，是需要真正的融會貫通。統(tǒng)計學(xué)家弗萊德曼早期從事物理學(xué)研究，他是優(yōu)化算法大師，而且他的編程能力同樣令人贊嘆。喬丹教授既是一流的計算機學(xué)家，又是一流的統(tǒng)計學(xué)家，而他的博士專業(yè)為心理學(xué)，他能夠承擔(dān)起建立統(tǒng)計機器學(xué)習(xí)的重任。辛頓教授是世界最著名的認(rèn)知心理學(xué)家和計算機科學(xué)家。雖然他很早就成就斐然，在學(xué)術(shù)界聲名鵲起，但他依然始終活躍在一線，自己寫代碼。他提出的許多想法簡單、可行又非常有效，被稱為偉大的思想家。正是由于他的睿智和身體力行，深度學(xué)習(xí)技術(shù)迎來了革命性的突破。這些學(xué)者非常務(wù)實，從不提那些空洞無物的概念和框架。他們遵循自下而上的方式，從具體問題、模型、方法、算法等著手，一步一步實現(xiàn)系統(tǒng)化。

　　可以說機器學(xué)習(xí)是由學(xué)術(shù)界、工業(yè)界、創(chuàng)業(yè)界（或競賽界）等合力造就的。學(xué)術(shù)界是引擎，工業(yè)界是驅(qū)動，創(chuàng)業(yè)界是活力和未來。學(xué)術(shù)界和工業(yè)界應(yīng)該有各自的職責(zé)和分工。學(xué)術(shù)界的職責(zé)在于建立和發(fā)展機器學(xué)習(xí)學(xué)科，培養(yǎng)機器學(xué)習(xí)領(lǐng)域的專門人才；而大項目、大工程更應(yīng)該由市場來驅(qū)動，由工業(yè)界來實施和完成。

我國機器學(xué)習(xí)發(fā)展現(xiàn)狀和出路

　　機器學(xué)習(xí)在我國得到了廣泛的關(guān)注，也取得了一定的成績，但我覺得大多數(shù)研究集中在數(shù)據(jù)挖掘?qū)用妫覈鴱氖录兇鈾C器學(xué)習(xí)研究的學(xué)者屈指可數(shù)。在計算機學(xué)術(shù)界，理論、方法等基礎(chǔ)性的研究沒有得到足夠重視，一些理論背景深厚的領(lǐng)域甚至被邊緣化。而一些“過剩學(xué)科”、“夕陽學(xué)科”則聚集了大量的人力、財力，這使得我國在國際主流計算機領(lǐng)域中缺乏競爭力和影響力。

　　統(tǒng)計學(xué)在我國還是一個弱勢學(xué)科，最近才被國家定為一級學(xué)科。我國統(tǒng)計學(xué)處于兩個極端，一是它被當(dāng)作數(shù)學(xué)的一個分支，主要研究概率論、隨機過程以及數(shù)理統(tǒng)計理論等。二是它被劃為經(jīng)濟學(xué)的分支，主要研究經(jīng)濟分析中的應(yīng)用。而機器學(xué)習(xí)在統(tǒng)計學(xué)界還沒有被深度地關(guān)注。統(tǒng)計學(xué)和計算機科學(xué)仍處于沃塞曼所說的“各自為戰(zhàn)”階段。

　　我國計算機學(xué)科的培養(yǎng)體系還基本停留在早期發(fā)展階段，如今的學(xué)生從小就與計算機接觸，他們的編程能力和國外學(xué)生相比沒有任何劣勢。但由于理論知識一直沒有被充分重視，而且統(tǒng)計學(xué)的重要性沒有被充分認(rèn)識到，這些造成了學(xué)生的數(shù)學(xué)能力和國外著名高校相比差距很大。我國大多數(shù)大學(xué)計算機專業(yè)的本科生都開設(shè)了人工智能課程，研究生則開設(shè)了機器學(xué)習(xí)課程，但無論是深度、寬度還是知識結(jié)構(gòu)都落后于學(xué)科的發(fā)展，不能適應(yīng)時代的需要。因此，人才的培養(yǎng)無論是質(zhì)量還是數(shù)量都無法滿足工業(yè)界的迫切需求。

　　目前數(shù)據(jù)科學(xué)專業(yè)在我國得到了極大的關(guān)注，北京大學(xué)、復(fù)旦大學(xué)和中國人民大學(xué)等依托雄厚的統(tǒng)計學(xué)實力紛紛建立了數(shù)據(jù)科學(xué)專業(yè)或大數(shù)據(jù)研究院，并已經(jīng)開始招收本科生和研究生。但是目前還沒有一所大學(xué)開設(shè)機器學(xué)習(xí)專業(yè)。機器學(xué)習(xí)對其他應(yīng)用或理論學(xué)科有輻射作用，也是連接兩者的紐帶。一方面它可以為理論端儲備人才，另一方面可以結(jié)合不同領(lǐng)域問題，比如醫(yī)療數(shù)據(jù)、金融數(shù)據(jù)、圖像視頻數(shù)據(jù)等，為應(yīng)用端輸送人才。因此，我認(rèn)為在計算機科學(xué)本科專業(yè)中，增加機器學(xué)習(xí)的訓(xùn)練是必要的。

　　機器學(xué)習(xí)集技術(shù)、科學(xué)與藝術(shù)于一體，它有別于傳統(tǒng)人工智能，是現(xiàn)代人工智能的核心。它牽涉到統(tǒng)計、優(yōu)化、矩陣分析、理論計算機、編程、分布式計算等。因此，建議在已有的計算機專業(yè)本科生課程的基礎(chǔ)上，適當(dāng)加強概率、統(tǒng)計和矩陣分析等課程，下面是具體課程設(shè)置和相關(guān)教材的建議：

　　1．加強概率與統(tǒng)計的基礎(chǔ)課程，建議采用莫里斯·德格魯特(Morris H. DeGroot)和馬克·舍維什(Mark J. Schervish)合著的第四版《概率論與數(shù)理統(tǒng)計》(Probability and Statistics)為教材。

　　2．在線性代數(shù)課程里，加強矩陣分析的內(nèi)容。教材建議使用吉爾伯特·斯特朗(Gilbert Strang)的《線性代數(shù)導(dǎo)論》(Introduction to Linear Algebra)。吉爾伯特·斯特朗在麻省理工學(xué)院一直講述線性代數(shù)，他的網(wǎng)上視頻課程堪稱經(jīng)典。后續(xù)建議開設(shè)矩陣計算，采用特雷費森·勞埃德(Trefethen N. Lloyd)和戴維·鮑(David Bau lll)著作的《數(shù)值線性代數(shù)》(Numerical Linear Algebra)為教科書。

　　3．開設(shè)機器學(xué)習(xí)課程。機器學(xué)習(xí)有許多經(jīng)典的書籍，但大多不太適宜做本科生的教材。最近，麻省理工學(xué)院出版的約翰·凱萊赫(John D. Kelleher)和布瑞恩·麥克·納米(Brian Mac Namee)等人著作的《機器學(xué)習(xí)基礎(chǔ)之預(yù)測數(shù)據(jù)分析》(Fundamentals of Machine Learning for Predictive Data Analytics)，或者安得烈·韋伯(Andrew R. Webb)和基思·科普塞(Keith D. Copsey)合著的第三版《統(tǒng)計模式識別》(Statistical Pattern Recognition)比較適合作為本科生的教科書。同時建議課程設(shè)置實踐環(huán)節(jié)，讓學(xué)生嘗試將機器學(xué)習(xí)方法應(yīng)用到某些特定問題中。

　　此外，我建議設(shè)立以下課程作為本科計算機專業(yè)的提高課程或者榮譽課程。特別是，國內(nèi)有些大學(xué)計算機專業(yè)設(shè)立了拔尖人才項目，我認(rèn)為以下課程可以考慮列入該項目的培養(yǎng)計劃中。事實上，上海交通大學(xué)ACM班就開設(shè)了隨機算法和統(tǒng)計機器學(xué)習(xí)等課程。

　　1．開設(shè)數(shù)值優(yōu)化課程，建議參考教材喬治·諾塞達(dá)爾(Jorge Nocedal)和史蒂芬·賴特(Stephen J. Wright)的第二版《數(shù)值優(yōu)化》(Numerical Optimization) ，或者開設(shè)數(shù)值分析，建議采用蒂莫西·索爾的《數(shù)值分析》(Numerical Analysis)為教材。

　　2．加強算法課程，增加高級算法，比如隨機算法，參考教材是邁克爾·米曾馬克(Michael Mitzenmacher)和伊萊·阿普法(Eli Upfal)的《概率與計算：隨機算法與概率分析》(Probability and Computing: Randomized Algorithms and Probabilistic Analysis)。

　　3．在程序設(shè)計方面，增加或加強并行計算的內(nèi)容。特別是在深度學(xué)習(xí)技術(shù)的執(zhí)行中，通常需要GPU加速，可以使用戴維·柯克 (David B. Kirk) 和胡文美(Wen-mei W. Hwu)的教材《大規(guī)模并行處理器編程實戰(zhàn)》（第二版）(Programming Massively Parallel Processors: A Hands-on Approach, Second Edition)；另外，還可以參考優(yōu)達(dá)學(xué)城(Udacity)上英偉達(dá)(Nvidia)講解CUDA計算的公開課。

　　總之，我認(rèn)為以計算機科學(xué)為主導(dǎo)，聯(lián)合統(tǒng)計和應(yīng)用數(shù)學(xué)專業(yè)，開設(shè)機器學(xué)習(xí)研究生專業(yè)是值得考慮的。研究生專業(yè)應(yīng)該圍繞理論機器學(xué)習(xí)、概率與隨機圖模型、貝葉斯方法、大規(guī)模優(yōu)化算法、深度學(xué)習(xí)等基礎(chǔ)機器學(xué)習(xí)領(lǐng)域。建議開設(shè)理論機器學(xué)習(xí)、概率圖模型、統(tǒng)計推斷與貝葉斯分析、凸分析與優(yōu)化、強化學(xué)習(xí)、信息論等課程[1~8]。

　　我國人工智能發(fā)展的根本出路在于教育。只有培養(yǎng)出一批批數(shù)理基礎(chǔ)深厚、動手執(zhí)行力極強，有真正融合交叉能力和國際視野的人才，我們才會有大作為。

　　致謝：

　　本文是根據(jù)在統(tǒng)計之都微博發(fā)布《機器學(xué)習(xí)：統(tǒng)計與計算之戀》一文的刪節(jié)和修改而整理出來的。具體，刪除原文中第二部分內(nèi)容，增加了一節(jié)“我國機器學(xué)習(xí)發(fā)展現(xiàn)狀和出路”。原文在統(tǒng)計之都發(fā)布后收到不少反饋意見。常象宇博士，以及我的學(xué)生陳迪、陳子豪、黎彧君、羅珞、葉海山、趙申劍等對修改稿提出了建設(shè)性的意見。在此一并感謝。

　　張志華。北京大學(xué)概率統(tǒng)計系教授。曾在浙江大學(xué)和上海交通大學(xué)計算機系任教。主要從事機器學(xué)習(xí)與應(yīng)用統(tǒng)計等領(lǐng)域的教學(xué)與科研工作。zhzzhang@gmail.com

　　機器學(xué)習(xí)——統(tǒng)計與計算之戀

北京大學(xué) 張志華

來源：統(tǒng)計之都(ID:CapStat)

　　編輯部按：本文是從張志華老師在第九屆中國R語言會議和上海交通大學(xué)的兩次講座中整理出來的。張志華老師是上海交通大學(xué)計算機科學(xué)與工程系教授，上海交通大學(xué)數(shù)據(jù)科學(xué)研究中心兼職教授，計算機科學(xué)與技術(shù)和統(tǒng)計學(xué)雙學(xué)科的博士生指導(dǎo)導(dǎo)師。在加入上海交通大學(xué)之前，是浙江大學(xué)計算機學(xué)院教授和浙江大學(xué)統(tǒng)計科學(xué)中心兼職教授。張老師主要從事人工智能、機器學(xué)習(xí)與應(yīng)用統(tǒng)計學(xué)領(lǐng)域的教學(xué)與研究，迄今在國際重要學(xué)術(shù)期刊和重要的計算機學(xué)科會議上發(fā)表70余篇論文，是美國“數(shù)學(xué)評論”的特邀評論員，國際機器學(xué)習(xí)旗艦刊物Journal of Machine Learning Research 的執(zhí)行編委。其公開課《機器學(xué)習(xí)導(dǎo)論》和《統(tǒng)計機器學(xué)習(xí)》受到廣泛關(guān)注。

張志華老師和他的學(xué)生們

　　大家好，今天我演講的主題是 “機器學(xué)習(xí)：統(tǒng)計與計算之戀”。我用了一個很浪漫的名字，但是我的心情是誠惶誠恐的。一則我擔(dān)心自己沒有能力駕馭這么大的主題，二則我其實是一個不解風(fēng)情之人，我的觀點有些可能不符合國內(nèi)學(xué)術(shù)界的主流聲音。

　　最近人工智能或者機器學(xué)習(xí)的強勢崛起，特別是剛剛過去的AlphaGo和韓國棋手李世石九段的人機大戰(zhàn)，再次讓我們領(lǐng)略到了人工智能或機器學(xué)習(xí)技術(shù)的巨大潛力，同時也深深地觸動了我。面對這一前所未有的技術(shù)大變革，作為10多年以來一直從事統(tǒng)計機器學(xué)習(xí)一線教學(xué)與研究的學(xué)者，希望借此機會和大家分享我個人的一些思考和反思。

　　在這場人工智能發(fā)展的盛事里，我突然發(fā)現(xiàn)，對我們中國的學(xué)者來說，好像是一群看熱鬧的旁觀者。不管你承認(rèn)還是不承認(rèn)，事實就是和我一代的或者更早的學(xué)者也只能作為旁觀者了。我們能做的事情是幫助你們---中國年輕的一代，讓你們在人工智能發(fā)展的大潮中有競爭力，做出標(biāo)桿性的成就，創(chuàng)造人類文明價值，也讓我有個加油歡呼的主隊。

　　我的演講主要包含兩部分，在第一部分，首先對機器學(xué)習(xí)發(fā)展做一個簡要的回顧，由此探討機器學(xué)習(xí)現(xiàn)象所蘊含的內(nèi)在本質(zhì)，特別是討論它和統(tǒng)計學(xué)、計算機科學(xué)、運籌優(yōu)化等學(xué)科的聯(lián)系，以及它和工業(yè)界、創(chuàng)業(yè)界相輔相成的關(guān)系。在第二部分，試圖用“多級”、“自適應(yīng)”以及 “平均”等概念來簡約紛繁多彩的機器學(xué)習(xí)模型和計算方法背后的一些研究思路或思想。

　　第一部分：回顧和反思

　　1、什么是機器學(xué)習(xí)

　　毋庸置疑，大數(shù)據(jù)和人工智能是當(dāng)今是最為時髦的名詞，它們將為我們未來生活帶來深刻的變革。數(shù)據(jù)是燃料，智能是目標(biāo)，而機器學(xué)習(xí)是火箭，即通往智能的技術(shù)途徑。機器學(xué)習(xí)大師Mike Jordan和Tom Mitchell 認(rèn)為機器學(xué)習(xí)是計算機科學(xué)和統(tǒng)計學(xué)的交叉，同時是人工智能和數(shù)據(jù)科學(xué)的核心。

　　“It is one of today’s rapidly growing technical fields, lying at the intersection of computer science and statistics, and at the core of artificial intelligence and data science”

---M. I. Jordan

　　通俗地說，機器學(xué)習(xí)就是從數(shù)據(jù)里面挖掘出有用的價值。數(shù)據(jù)本身是死的，它不能自動呈現(xiàn)出有用的信息。怎么樣才能找出有價值的東西呢？第一步要給數(shù)據(jù)一個抽象的表示，接著基于表示進(jìn)行建模，然后估計模型的參數(shù)，也就是計算，為了應(yīng)對大規(guī)模的數(shù)據(jù)所帶來的問題，我們還需要設(shè)計一些高效的實現(xiàn)手段。

　　我把這個過程解釋為機器學(xué)習(xí)等于矩陣+統(tǒng)計+優(yōu)化+算法。首先，當(dāng)數(shù)據(jù)被定義為一個抽象的表示時，往往形成一個矩陣或者一個圖，而圖其實也是可以理解為矩陣。統(tǒng)計是建模的主要工具和途徑，而模型求解大多被定義為一個優(yōu)化問題，特別是，頻率統(tǒng)計方法其實就是一個優(yōu)化問題。當(dāng)然，貝葉斯模型的計算牽涉隨機抽樣方法。而之前說到面對大數(shù)據(jù)問題的具體實現(xiàn)時，需要一些高效的方法，計算機科學(xué)中的算法和數(shù)據(jù)結(jié)構(gòu)里有不少好的技巧可以幫助我們解決這個問題。

　　借鑒Marr的關(guān)于計算機視覺的三級論定義，我把機器學(xué)習(xí)也分為三個層次：初級、中級和高級。初級階段是數(shù)據(jù)獲取以及特征的提取。中級階段是數(shù)據(jù)處理與分析，它又包含三個方面，首先是應(yīng)用問題導(dǎo)向，簡單地說，它主要應(yīng)用已有的模型和方法解決一些實際問題，我們可以理解為數(shù)據(jù)挖掘；第二，根據(jù)應(yīng)用問題的需要，提出和發(fā)展模型、方法和算法以及研究支撐它們的數(shù)學(xué)原理或理論基礎(chǔ)等，我理解這是機器學(xué)習(xí)學(xué)科的核心內(nèi)容。第三，通過推理達(dá)到某種智能。最后，高級階段是智能與認(rèn)知，即實現(xiàn)智能的目標(biāo)。從這里，我們看到，數(shù)據(jù)挖掘和機器學(xué)習(xí)本質(zhì)上是一樣的，其區(qū)別是數(shù)據(jù)挖掘更接地于數(shù)據(jù)庫端，而機器學(xué)習(xí)則更接近于智能端。

　　2、機器學(xué)習(xí)的發(fā)展歷程

　　我們來梳理一下機器學(xué)習(xí)的發(fā)展歷程。上個世紀(jì)90年代以前，我對此認(rèn)識不夠，了解不深，但我覺得當(dāng)時機器學(xué)習(xí)處于發(fā)展的平淡期。而1996-2006年是其黃金時期，主要標(biāo)志是學(xué)術(shù)界涌現(xiàn)出一批重要成果，比如，基于統(tǒng)計學(xué)習(xí)理論的SVM和boosting等分類方法，基于再生核理論的非線性數(shù)據(jù)分析與處理方法，以lasso為代表的稀疏學(xué)習(xí)模型及應(yīng)用等等。這些成果應(yīng)該是統(tǒng)計界和計算機科學(xué)界共同努力成就的。

　　然而，機器學(xué)習(xí)也經(jīng)歷了一個短暫的徘徊期。這個我感同身受，因為那時我在伯克利的博士后工作結(jié)束，正面臨找工作，因此當(dāng)時我導(dǎo)師Mike Jordan教授和我進(jìn)行了多次交流，他一方面認(rèn)為機器學(xué)習(xí)正處于困難期，工作職位已趨于飽滿，另一方面他向我一再強調(diào)，把統(tǒng)計學(xué)引入到機器學(xué)習(xí)的思路是對的，因為以統(tǒng)計學(xué)為基礎(chǔ)的機器學(xué)習(xí)作為一個學(xué)科其地位已經(jīng)被奠定。主要問題是機器學(xué)習(xí)是一門應(yīng)用學(xué)科，它需要在工業(yè)界發(fā)揮出作用，能為他們解決實際問題。幸運的是，這個時期很快就過去了。可能在座大多數(shù)人對這個時期沒有印象，因為中國學(xué)術(shù)發(fā)展往往要慢半拍。

　　現(xiàn)在我們可以理直氣壯地說機器學(xué)習(xí)已經(jīng)成為計算機科學(xué)和人工智能的主流學(xué)科。主要體現(xiàn)在下面三個標(biāo)志性的事件。

　　首先，2010年2月，伯克利的Mike Jordan教授和CMU的Tom Mitchell教授同時被選為美國工程院院士，同年5月份，Mike Jordan和斯坦福的統(tǒng)計學(xué)家Jerome Friedman又被選為美國科學(xué)院院士。我們知道許多著名機器學(xué)習(xí)算法比如CART、MARS 和GBM等是 Friedman教授等提出。

　　隨后幾年一批在機器學(xué)習(xí)做出重要貢獻(xiàn)的學(xué)者先后被選為美國科學(xué)院或工程院院士。比如，人工智能專家的Daphne Koller, Boosting的主要建立者Robert Schapire, Lasso的提出者Robert Tibshirani, 華裔著名統(tǒng)計學(xué)習(xí)專家郁彬老師，統(tǒng)計機器機器學(xué)習(xí)專家的Larry Wasserman, 著名的優(yōu)化算法專家 Stephen Boyd等。同時，機器學(xué)習(xí)專家、深度學(xué)習(xí)的領(lǐng)袖Toronto大學(xué)Geoffrey Hinton 以及該校統(tǒng)計學(xué)習(xí)專家Nancy Reid 今年分別被選為美國工程院和科學(xué)院的外籍院士。

　　這是當(dāng)時Mike給我祝賀他當(dāng)選為院士時的回信：

　　Thanks for your congratulations on my election to the National Academy. It's nice to have machine learning recognized in this way.

　　因此，我理解在美國一個學(xué)科能否被接納為主流學(xué)科的一個重要標(biāo)志是其代表科學(xué)家能否被選為院士。我們知道Tom Mitchell 是機器學(xué)習(xí)早期建立者和守護(hù)者，而Mike Jordan是統(tǒng)計機器學(xué)習(xí)的奠基者和推動者。

　　這個遴選機制無疑是先進(jìn)的，它可以促使學(xué)科良性發(fā)展，適應(yīng)社會動態(tài)發(fā)展和需求。相反，如果某某通過某種方式被評選為本國院士，然后他們就掌握了該國學(xué)術(shù)話語權(quán)和資源分配權(quán)。這種機制可能會造成一些問題，比如一些過剩學(xué)科或者夕陽學(xué)科會得到過多的發(fā)展資源，而主流學(xué)科則被邊緣化。

　　其次，2011年的圖靈獎授予了UCLA的Judea Pearl教授，他主要的研究領(lǐng)域是概率圖模型和因果推理，這是機器學(xué)習(xí)的基礎(chǔ)問題。我們知道，圖靈獎通常頒給做純理論計算機科學(xué)的學(xué)者，或者早期建立計算機架構(gòu)的學(xué)者，而把圖靈獎授予Judea Pearl教授具有方向標(biāo)的意義。

　　第三，是當(dāng)下的熱點，比如說深度學(xué)習(xí)、AlphaGo、無人駕駛汽車、人工智能助理等等對工業(yè)界的巨大影響。機器學(xué)習(xí)切實能被用來幫助工業(yè)界解決問題。工業(yè)界對機器學(xué)習(xí)領(lǐng)域的才人有大量的需求，不僅僅需要代碼能力強的工程師，也需要有數(shù)學(xué)建模和解決問題的科學(xué)家。

　　讓我們具體地看看工業(yè)界和機器學(xué)習(xí)之間的關(guān)系。我之前在谷歌研究院做過一年的訪問科學(xué)家，我有不少同事和以前學(xué)生在IT界工作，平時實驗室也經(jīng)常接待一些公司的來訪和交流，因此了解一些IT界情況。

　　我理解當(dāng)今IT的發(fā)展已從傳統(tǒng)的微軟模式轉(zhuǎn)變到谷歌模式。傳統(tǒng)的微軟模式可以理解為制造業(yè)，而谷歌模式則是服務(wù)業(yè)。谷歌搜索完全是免費的，服務(wù)社會，他們的搜索做得越來越極致，同時創(chuàng)造的財富也越來越豐厚。

　　財富蘊藏在數(shù)據(jù)中，而挖掘財富的核心技術(shù)則是機器學(xué)習(xí)。深度學(xué)習(xí)作為當(dāng)今最有活力一個機器學(xué)習(xí)方向，在計算機視覺、自然語言理解、語音識別、智力游戲等領(lǐng)域的顛覆性成就。它造就了一批新興的創(chuàng)業(yè)公司。

　　3、統(tǒng)計與計算

　　我的重點還是要回到學(xué)術(shù)界。我們來重點討論統(tǒng)計學(xué)和計算機科學(xué)的關(guān)系。CMU 統(tǒng)計系教授Larry Wasserman最近剛被選為美國科學(xué)院院士。他寫了一本名字非常霸道的書，《All of Statistics》。在這本書引言部分關(guān)于統(tǒng)計學(xué)與機器學(xué)習(xí)有個非常有趣的描述。他認(rèn)為原來統(tǒng)計是在統(tǒng)計系，計算機是在計算機系，這兩個是不相來往的，而且互相都不認(rèn)同對方的價值。計算機學(xué)家認(rèn)為那些統(tǒng)計理論沒有用，不解決問題，而統(tǒng)計學(xué)家則認(rèn)為計算機學(xué)家只是在重新建造輪子，沒有新意。然而，他認(rèn)為這個情況現(xiàn)在改變了，統(tǒng)計學(xué)家認(rèn)識到計算機學(xué)家正在做出的貢獻(xiàn)，而計算機學(xué)家也認(rèn)識到統(tǒng)計的理論和方法論的普遍性意義。所以，Larry寫了這本書，可以說這是一本為統(tǒng)計學(xué)者寫的計算機領(lǐng)域的書，為計算機學(xué)者寫的統(tǒng)計領(lǐng)域的書。

　　現(xiàn)在大家達(dá)成了一個共識: 如果你在用一個機器學(xué)習(xí)方法，而不懂其基礎(chǔ)原理，這是一件非常可怕的事情。也是由于這個原因，目前學(xué)術(shù)界對深度學(xué)習(xí)還是心存疑慮的。深度學(xué)習(xí)已經(jīng)展示其強大的實際應(yīng)用的效果，但其中的原理目前大家還不是太清楚。

　　讓我們進(jìn)一步地來分析統(tǒng)計與計算機的關(guān)系。計算機學(xué)家通常具有強的計算能力和解決問題的直覺，而統(tǒng)計學(xué)家長于理論分析，具有強的建模能力，因此，兩者有很好的互補性。

　　Boosting, SVM 和稀疏學(xué)習(xí)是機器學(xué)習(xí)界也是統(tǒng)計界，在近十年或者是近二十年來，最活躍的方向，現(xiàn)在很難說誰比誰在其中做的貢獻(xiàn)更大。比如，SVM的理論其實很早被Vapnik等提出來了，但計算機界發(fā)明了一個有效的求解算法，而且后來又有非常好的實現(xiàn)代碼被陸續(xù)開源給大家使用，于是SVM就變成分類算法的一個基準(zhǔn)模型。再比如，KPCA是由計算機學(xué)家提出的一個非線性降維方法，其實它等價于經(jīng)典MDS。而后者在統(tǒng)計界是很早就存在的，但如果沒有計算機界從新發(fā)現(xiàn)，有些好的東西可能就被埋沒了。

　　機器學(xué)習(xí)現(xiàn)在已成為統(tǒng)計學(xué)的一個主流方向，許多著名統(tǒng)計系紛紛招聘機器學(xué)習(xí)領(lǐng)域的博士為教員。計算在統(tǒng)計已經(jīng)變得越來越重要，傳統(tǒng)多元統(tǒng)計分析是以矩陣為計算工具，現(xiàn)代高維統(tǒng)計則是以優(yōu)化為計算工具。另一方面，計算機學(xué)科開設(shè)高級統(tǒng)計學(xué)課程，比如統(tǒng)計學(xué)中的核心課程“經(jīng)驗過程”。

　　我們來看機器學(xué)習(xí)在計算機科學(xué)占什么樣的地位。最近有一本還沒有出版的書 “Foundation of Data Science, by Avrim Blum, John Hopcroft, and Ravindran Kannan,”作者之一John Hopcroft是圖靈獎得主。在這本書前沿部分，提到了計算機科學(xué)的發(fā)展可以分為三個階段：早期、中期和當(dāng)今。早期就是讓計算機可以運行起來，其重點在于開發(fā)程序語言、編譯原理、操作系統(tǒng)，以及研究支撐它們的數(shù)學(xué)理論。中期是讓計算機變得有用，變得高效。重點在于研究算法和數(shù)據(jù)結(jié)構(gòu)。第三個階段是讓計算機具有更廣泛的應(yīng)用，發(fā)展重點從離散類數(shù)學(xué)轉(zhuǎn)到概率和統(tǒng)計。那我們看到，第三階段實際上就是機器學(xué)習(xí)所關(guān)心的。

　　現(xiàn)在計算機界戲稱機器學(xué)習(xí)“全能學(xué)科”，它無所不在。一方面，機器學(xué)習(xí)有其自身的學(xué)科體系；另一方面它還有兩個重要的輻射功能。一是為應(yīng)用學(xué)科提供解決問題的方法與途徑。說的通俗一點，對于一個應(yīng)用學(xué)科來說，機器學(xué)習(xí)的目的就是把一些難懂的數(shù)學(xué)翻譯成讓工程師能夠?qū)懗龀绦虻膫未a。二是為一些傳統(tǒng)學(xué)科，比如統(tǒng)計、理論計算機科學(xué)、運籌優(yōu)化等找到新的研究問題。

　　4、機器學(xué)習(xí)發(fā)展的啟示

　　機器學(xué)習(xí)是個很酷的名字，簡單地按照字面理解，它的目的是讓機器能像人一樣具有學(xué)習(xí)能力。但在前面我們所看到的，在其10年的黃金發(fā)展期，機器學(xué)習(xí)界并沒有過多地炒作“智能”，而是更多地關(guān)注于引入統(tǒng)計學(xué)等來建立學(xué)科的理論基礎(chǔ)，面向數(shù)據(jù)分析與處理，以無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)為兩大主要的研究問題，提出和開發(fā)了一系列模型、方法和計算算法等，切實地解決工業(yè)界所面臨的一些實際問題。近幾年，因應(yīng)大數(shù)據(jù)的驅(qū)動和計算能力的極大提升，一批面向機器學(xué)習(xí)的底層架構(gòu)又先后被開發(fā)出來，深度神經(jīng)網(wǎng)絡(luò)的強勢崛起給工業(yè)界帶來了深刻的變革和機遇。

　　機器學(xué)習(xí)的發(fā)展同樣詮釋了多學(xué)科交叉的重要性和必要性。然而這種交叉不是簡單地彼此知道幾個名詞或概念就可以的，是需要真正的融化貫通。Mike Jordan教授既是一流的計算機學(xué)家，又是一流的統(tǒng)計學(xué)家，所以他能夠承擔(dān)起建立統(tǒng)計機器學(xué)習(xí)的重任。而且他非常務(wù)實，從不提那些空洞無物的概念和框架。他遵循自下而上的方式，即先從具體問題、模型、方法、算法等著手，然后一步一步系統(tǒng)化。Geoffrey Hinton教授是世界最著名的認(rèn)知心理學(xué)家和計算機科學(xué)學(xué)家。雖然他很早就成就斐然，在學(xué)術(shù)界名聲卓越，但他一直活躍在一線，自己寫代碼。他提出的許多想法簡單、可行又非常有效，因此被稱為偉大的思想家。正是由于他的睿智和力行，深度學(xué)習(xí)技術(shù)迎來了革命性的突破。

　　機器學(xué)習(xí)這個學(xué)科同時是兼容并收。我們可以說機器學(xué)習(xí)是由學(xué)術(shù)界、工業(yè)界、創(chuàng)業(yè)界(或競賽界)等合力而造就的。學(xué)術(shù)界是引擎，工業(yè)界是驅(qū)動，創(chuàng)業(yè)界是活力和未來。學(xué)術(shù)界和工業(yè)界應(yīng)該有各自的職責(zé)和分工。學(xué)術(shù)界職責(zé)在于建立和發(fā)展機器學(xué)習(xí)學(xué)科，培養(yǎng)機器學(xué)習(xí)領(lǐng)域的專門人才；而大項目、大工程更應(yīng)該由市場來驅(qū)動，由工業(yè)界來實施和完成。

　　5、國內(nèi)外發(fā)展現(xiàn)狀

　　我們來看看機器學(xué)習(xí)在國際的發(fā)展現(xiàn)狀。我主要看幾所著名大學(xué)的情況。在伯克利，一個值得深思的舉措是機器學(xué)習(xí)的教授同時在計算機系和統(tǒng)計學(xué)都有正式職位，而且據(jù)我所知，他們不是兼職，在兩個系都有教授課程和研究的任務(wù)的。伯克利是美國統(tǒng)計學(xué)的發(fā)源地，可以說是當(dāng)今統(tǒng)計學(xué)的圣地，然而她兼容并蓄、不固步自封。Mike Jordan教授是統(tǒng)計機器學(xué)習(xí)的主要建立者和推動者，他為機器學(xué)習(xí)領(lǐng)域培養(yǎng)了一大批優(yōu)秀的學(xué)生。統(tǒng)計系的主任現(xiàn)在是Mike，然而他早年的教育并沒有統(tǒng)計或數(shù)學(xué)背景。可以說，Berkeley的統(tǒng)計系成就了Mike，反過來他也為Berkeley的統(tǒng)計學(xué)發(fā)展創(chuàng)造了新的活力，建立了無可代替的功勛。

　　斯坦福和伯克利的統(tǒng)計是公認(rèn)世界最好的兩個。我們看到，斯坦福統(tǒng)計系的主流方向就是統(tǒng)計學(xué)習(xí)，比如我們熟知的《Elements of statistical learning》一書就是統(tǒng)計系幾位著名教授撰寫的。Stanford計算機科學(xué)的人工智能方向一直在世界占主導(dǎo)地位，特別在不確定推理、概率圖模型、概率機器人等領(lǐng)域成就斐然，他們的網(wǎng)絡(luò)公開課《機器學(xué)習(xí)》、《概率圖模型》以及《人工智能》等讓世界受益。

　　CMU是一個非常獨特的學(xué)校，她并不是美國傳統(tǒng)的常春藤大學(xué)。可以說，它是以計算機科學(xué)為立校之本，它是世界第一個建立機器學(xué)習(xí)系的學(xué)校。Tom Mitchell 教授是機器學(xué)習(xí)的早期建立者之一和守護(hù)者，他一直為該校本科生教《機器學(xué)習(xí)》課程。然而，這個學(xué)校統(tǒng)計學(xué)同樣強，尤其，她是貝葉斯統(tǒng)計學(xué)的世界研究中心。

　　在機器學(xué)習(xí)領(lǐng)域，多倫多大學(xué)有著舉足輕重的地位，她們機器學(xué)習(xí)研究組云集了一批世界級的學(xué)者，在“Science” 和“Nature”發(fā)表多篇論文，實屬罕見。Geoffrey Hinton 教授是偉大的思想家，但更是踐行者。他是神經(jīng)網(wǎng)絡(luò)的建立者之一，是BP算法和深度學(xué)習(xí)的主要貢獻(xiàn)者。正是由于他的不懈努力，神經(jīng)網(wǎng)絡(luò)迎來了大爆發(fā)。Radford Neal 教授是Hinton學(xué)生，他在貝葉斯統(tǒng)計領(lǐng)域，特別是關(guān)于MCMC做出了一系列的重要工作。

　　國際發(fā)展現(xiàn)狀

　　那么我們來看看國內(nèi)的現(xiàn)狀。總的來說，統(tǒng)計和計算機科學(xué)這兩個學(xué)科處于Larry所說的初期各自為戰(zhàn)的階段。面向大數(shù)據(jù)的統(tǒng)計學(xué)與計算機科學(xué)的交叉研究是機遇也是挑戰(zhàn)。

　　我之前在浙江大學(xué)曾經(jīng)參與其統(tǒng)計交叉學(xué)科中心的組建，由此對統(tǒng)計界有所了解。統(tǒng)計學(xué)在中國應(yīng)該還是一個弱勢學(xué)科，最近才被國家定為一級學(xué)科。我國統(tǒng)計學(xué)處于兩個極端，一是它被當(dāng)作數(shù)學(xué)的一個分支，主要研究概率論、隨機過程以及數(shù)理統(tǒng)計理論等。二是它被劃為經(jīng)濟學(xué)的分支，主要研究經(jīng)濟分析中的應(yīng)用。而機器學(xué)習(xí)在統(tǒng)計學(xué)界還沒有被深度地關(guān)注。因此，面向于數(shù)據(jù)處理、分析的IT和統(tǒng)計學(xué)的深度融合有巨大的潛力。

　　雖然，我并沒有跟國內(nèi)機器學(xué)習(xí)或者人工智能學(xué)術(shù)界有深入的接觸，但我在國內(nèi)計算機系工作近8年時間，一直在一線從事機器學(xué)習(xí)相關(guān)的教學(xué)與研究，應(yīng)該對機器學(xué)習(xí)的現(xiàn)狀有一定的發(fā)言權(quán)。機器學(xué)習(xí)的確在中國得到了廣泛的關(guān)注，也取得了一定的成績，但我覺得高品質(zhì)的研究成果稀缺。熱衷于對機器學(xué)習(xí)的高級階段進(jìn)行一些概念炒作，它們通常沒有多大的可執(zhí)行性；偏愛大項目、大集成，這些本更應(yīng)該由工業(yè)界來實施；而理論、方法等基礎(chǔ)性的研究不被重視，認(rèn)為理論沒有用處的觀點還大有市場。

　　計算機學(xué)科的培養(yǎng)體系還基本停留在它的早期發(fā)展階段。大多數(shù)學(xué)校都開設(shè)了人工智能與機器學(xué)習(xí)的課程，但無論是深度還是前沿性都落后于學(xué)科的發(fā)展，不能適應(yīng)時代的需要。人才的培養(yǎng)無論質(zhì)量和數(shù)量都無法滿足工業(yè)界的需求。這也是國內(nèi)IT公司與國際同類公司技術(shù)上有較大差距的關(guān)鍵原因。

　　第二部分：幾個簡單的研究思路

　　在這部分，我的關(guān)注則回到機器學(xué)習(xí)的研究本身上來。機器學(xué)習(xí)內(nèi)容博大精深，而且新方法、新技術(shù)正源源不斷地被提出、被發(fā)現(xiàn)。這里，我試圖用“多級”、“自適應(yīng)”以及 “平均”等概念來簡約紛繁多彩的機器學(xué)習(xí)模型和計算方法背后的一些研究思路和思想。希望這些對大家理解機器學(xué)習(xí)已有的一些模型、方法以及未來的研究有所啟發(fā)。

　　1. 多級 (Hierarchical)

　　首先，讓我們來關(guān)注“多級”這個技術(shù)思想。我們具體看三個例子。

bim工程師找什么工作bim工程師能應(yīng)聘什么職位第1張

　　第一個例子是隱含數(shù)據(jù)模型，它就是一種多級模型。作為概率圖模型的一種延伸，隱含數(shù)據(jù)模型是一類重要的多元數(shù)據(jù)分析方法。隱含變量有三個重要的性質(zhì)。第一，可以用比較弱的條件獨立相關(guān)性代替較強的邊界獨立相關(guān)性。著名的de Finetti 表示定理支持這點。這個定理說，一組可以交換的隨機變量當(dāng)且僅當(dāng)在某個參數(shù)給定條件下，它們可以表示成一組條件隨機變量的混合體。這給出了一組可以交換的隨機變量的一個多級表示。即先從某個分布抽一個參數(shù)，然后基于這個參數(shù)，獨立地從某個分布抽出這組隨機變量。第二，可以通過引入隱含變量的技術(shù)來方便計算，比如期望最大算法以及更廣義的數(shù)據(jù)擴充技術(shù)就是基于這一思想。具體地，一些復(fù)雜分布，比如t-distribution, Laplace distribution 則可以通過表示成高斯尺度混合體來進(jìn)行簡化計算。第三，隱含變量本身可能具有某種有可解釋的物理意思，這剛好符合應(yīng)用的場景。比如，在隱含狄利克雷分配(LDA)模型，其中隱含變量具有某種主題的意思。

Laten Dirichlet Allocation

　　第二個例子，我們來看多級貝葉斯模型。在進(jìn)行MCMC抽樣后驗估計時，最上層的超參數(shù)總是需要先人為給定的，自然地，MCMC算法收斂性能是依賴這些給定的超參數(shù)的，如果我們對這些參數(shù)的選取沒有好的經(jīng)驗，那么一個可能做法我們再加一層，層數(shù)越多對超參數(shù)選取的依賴性會減弱。

Hierarchical Bayesian Model

　　第三例子，深度學(xué)習(xí)蘊含的也是多級的思想。如果把所有的節(jié)點全部的放平，然后全連接，就是一個全連接圖。而CNN深度網(wǎng)絡(luò)則可以看成對全連接圖的一個結(jié)構(gòu)正則化。正則化理論是統(tǒng)計學(xué)習(xí)的一個非常核心的思想。CNN和RNN是兩大深度神經(jīng)網(wǎng)絡(luò)模型，分別主要用于圖像處理和自然語言處理中。研究表明多級結(jié)構(gòu)具有更強的學(xué)習(xí)能力。

Deep Learning

　　2. 自適應(yīng) (Adaptive)

　　我們來看自適應(yīng)這個技術(shù)思路，我們通過幾個例子來看這個思路的作用。

　　第一個例子是自適應(yīng)重要采樣技術(shù)。重要采樣方法通常可以提高均勻采樣的性能，而自適應(yīng)則進(jìn)一步改善重要采樣的性能。

　　第二個例子，自適應(yīng)列選擇問題。給定一個矩陣A，我們希望從中選取部分列構(gòu)成一個矩陣C，然后用CC^+A去近似原矩陣A，而且希望近似誤差盡可能小。這是一個NP難問題。在實際上，可以通過一個自適應(yīng)的方式，先采出非常小一部分C_1，由此構(gòu)造一個殘差，通過這個定義一個概率，然后用概率再去采一部分C_2, 把C_1 和 C_2 合在一起組成C。

　　第三個例子，是自適應(yīng)隨機迭代算法。考慮一個帶正則化的經(jīng)驗風(fēng)險最小問題，當(dāng)訓(xùn)練數(shù)據(jù)非常多時，批處理的計算方式非常耗時，所以通常采用一個隨機方式。存在的隨機梯度或者隨機對偶梯度算法可以得到參數(shù)的一個無偏估計。而通過引入自適應(yīng)的技術(shù)，可以減少估計的方差。

　　第四個例子，是Boosting分類方法。它自適應(yīng)調(diào)整每個樣本的權(quán)重，具體地，提高分錯樣本的權(quán)重，而降低分對樣本的權(quán)重。

　　3. 平均 (Averaging)

　　其實，boosting 蘊含著平均思想，即我最后要談的技術(shù)思路。簡單地說，boosting是把一組弱分類器集成在一起，形成一個強的分類器。第一好處是可以降低擬合的風(fēng)險。第二，可以降低陷入局部的風(fēng)險。第三，可以擴展假設(shè)空間。Bagging同樣是經(jīng)典的集成學(xué)習(xí)算法，它把訓(xùn)練數(shù)據(jù)分成幾組，然后分別在小數(shù)據(jù)集上訓(xùn)練模型，通過這些模型來組合強分類器。另外這是一個兩層的集成學(xué)習(xí)方式。

　　經(jīng)典的Anderson 加速技術(shù)則是通過平均的思想來達(dá)到加速收斂過程。具體地，它是一個疊加的過程，這個疊加的過程通過求解一個殘差最小得到一個加權(quán)組合。這個技術(shù)的好處，是沒有增加太多的計算，往往還可以使數(shù)值迭代變得較為穩(wěn)定。

bim工程師找什么工作bim工程師能應(yīng)聘什么職位第2張

　　另外一個使用平均的例子是分布式計算中。很多情況下分布式計算不是同步的，是異步的，如果異步的時候怎么辦？最簡單的是各自獨立做，到某個時候把所有結(jié)果平均，分發(fā)給各個worker, 然后又各自獨立運行，如此下去。這就好像一個熱啟動的過程。

　　正如我們已經(jīng)看到，這些思想通常是組合在一起使用的，比如boosting模型。我們多級、自適應(yīng)和平均的思想很直接，但的確也很有用。

　　在AlphaGo和李世石九段對弈中，一個值得關(guān)注的細(xì)節(jié)是，代表Alpha Go方懸掛的是英國國旗。我們知道AlphaGo是由deep mind團隊研發(fā)的，deep mind是一家英國公司，但后來被google公司收購了。科學(xué)成果是世界人民共同擁有和分享的財富，但科學(xué)家則是有其國家情懷和歸屬感。

　　位低不敢忘春秋大義，我認(rèn)為我國人工智能發(fā)展的根本出路在于教育。先哲說：“磨刀不誤砍柴工”。只有培養(yǎng)出一批又一批的數(shù)理基礎(chǔ)深厚、計算機動手執(zhí)行力極強，有真正融合交叉能力和國際視野的人才時，我們才會有大作為。

　　致謝

　　上述內(nèi)容是根據(jù)我最近在第九屆中國R語言會議（https://china-r.org/bj2016/）和上海交通大學(xué)的兩次講座而整理出來的，特別是R會主辦方統(tǒng)計之都的同學(xué)們幫我做了該次演講的記錄。感謝統(tǒng)計之都的太云、凌秉和象宇的邀請，他們和統(tǒng)計之都的伙伴們正在做一件意義影響深遠(yuǎn)的學(xué)術(shù)公益，你們的情懷和奉獻(xiàn)給了我信心來公開宣講自己多年來的真實認(rèn)識和思考。感謝我的學(xué)生們幫助我準(zhǔn)備這個講演報告，從主題的選定，內(nèi)容的選取，材料的收集以及幻燈片的制作他們都給了我極大的支持，更重要的是，他們讓我在機器學(xué)習(xí)領(lǐng)域的求索一直不孤獨。謝謝大家！

　　統(tǒng)計之都：專業(yè)、人本、正直的中國統(tǒng)計學(xué)門戶網(wǎng)站。

　　“遠(yuǎn)望智庫”聚焦前沿科技領(lǐng)域，著眼科技未來發(fā)展，圍繞軍民融合、科技創(chuàng)新、管理創(chuàng)新、科技安全、知識產(chǎn)權(quán)等主題，開展情報挖掘、發(fā)展戰(zhàn)略研究、規(guī)劃論證、評估評價、項目篩選，以及成果轉(zhuǎn)化等工作，為管理決策、產(chǎn)業(yè)規(guī)劃、企業(yè)發(fā)展、機構(gòu)投資提供情報、咨詢、培訓(xùn)等服務(wù)，為推動國家創(chuàng)新驅(qū)動發(fā)展和軍民融合深度發(fā)展提供智力支撐。

免責(zé)聲明：本站提供的任何內(nèi)容版權(quán)均屬于相關(guān)版權(quán)人和權(quán)利人，如有侵犯你的版權(quán)。請來信指出，我們將于第一時間刪除！所有資源均由免費公共網(wǎng)絡(luò)整理而來，僅供學(xué)習(xí)和研究使用。請勿公開發(fā)表或用于商業(yè)用途和盈利用途。
本文鏈接：http://www.whxzws.com/bim/35083.html