本文來(lái)自微信公眾號(hào):知識(shí)分子,作者:鄂維南,題圖來(lái)自:視覺(jué)中國(guó)(鄂維南,2021)
到今年九月,我全職回國(guó)已經(jīng)整整五年。
這五年間,我同時(shí)推動(dòng)了AI for Science、 data-centric AI基礎(chǔ)設(shè)施建設(shè),自主可控的工業(yè)軟件和工業(yè)智能的開發(fā),以志愿者身份參與創(chuàng)建交大人工智能學(xué)院,并嘗試構(gòu)建一個(gè)高效率、高水平的科技創(chuàng)新機(jī)制。
做這些事不是為了個(gè)人的科研,而是希望推動(dòng)我國(guó)在最核心的技術(shù)方面實(shí)現(xiàn)自主可控,在未來(lái)最重要的發(fā)展方向上能夠抓住千載難逢的機(jī)會(huì),在智能化時(shí)代率先找到最有競(jìng)爭(zhēng)力的人才培養(yǎng)和科技創(chuàng)新機(jī)制。
這些任務(wù)中的任何一項(xiàng)都極為重要,更不要說(shuō)以個(gè)人的力量同時(shí)推動(dòng)幾個(gè)事情,難度是可想而知的。除了我的幾個(gè)學(xué)生,沒(méi)有人理解我為什么同時(shí)做這么多事情,我也無(wú)法向別人解釋。
讓人欣慰的是許多事情都已經(jīng)開始開花結(jié)果。更讓我感到驚喜的是,它們正走到一起,成為我們“終極目標(biāo)”的核心組成部分。但回想起來(lái),在具體推動(dòng)這些事的過(guò)程中,一些實(shí)際做法大大增加了國(guó)家層面失去重要機(jī)會(huì)窗口的風(fēng)險(xiǎn),這里面的經(jīng)驗(yàn)教訓(xùn)值得認(rèn)真總結(jié)。
另一方面,從大學(xué)時(shí)代起,我就有一個(gè)科技強(qiáng)國(guó)的夢(mèng)想。為了這個(gè)夢(mèng)想,我改行做應(yīng)用數(shù)學(xué),之后又探索了幾十年。我在許多關(guān)鍵戰(zhàn)略認(rèn)識(shí)和戰(zhàn)略部署上都走在了時(shí)代的前沿,后面的發(fā)展也多次證明這些認(rèn)識(shí)和部署是正確的。
但前沿性的認(rèn)識(shí)并不意味著它能夠產(chǎn)生實(shí)際效果,其核心是在一個(gè)習(xí)慣追趕的大環(huán)境下,能不能建立起一個(gè)有效支持領(lǐng)跑的機(jī)制,這樣的機(jī)制在科技創(chuàng)新進(jìn)入快車道的智能化時(shí)代是不可或缺的,也是實(shí)現(xiàn)科技強(qiáng)國(guó)的重要組成部分。
如何建立起這樣的機(jī)制?這也是我這幾年一直在思考的問(wèn)題。這篇文章簡(jiǎn)單總結(jié)了我這幾年的經(jīng)歷和對(duì)上述問(wèn)題的一些探索和思考。
此外,寫這篇文章還有一個(gè)目的,是想解釋一下這幾年來(lái)我的一些做法,包括:對(duì)同事,為什么我不得不在上海和北京之間跑,多多少少辜負(fù)了你們的希望?對(duì)朋友,為什么許多會(huì)議、活動(dòng)和聚會(huì)我都參加不了,以至于落下不食人間煙火的名聲?對(duì)身邊的年輕人,為什么我對(duì)你們要求這么高、這么嚴(yán),以至于在許多人眼里我最主要的工作就是“鞭策”?這些問(wèn)題一直是壓在心里的石頭,不吐不快。
此文將會(huì)分成上下兩篇,上篇主要談遲到的回國(guó)、AI for Science、工業(yè)軟件和工業(yè)智能和Data-centric AI基礎(chǔ)設(shè)施建設(shè)四個(gè)部分。
下篇會(huì)講到交大人工智能學(xué)院、為什么沒(méi)有能夠集中精力做一件事、建立起一個(gè)適應(yīng)智能化時(shí)代需求的科技創(chuàng)新機(jī)制和我的一點(diǎn)感悟。
遲到的回國(guó)
2020年9月17日,我乘坐東航的班機(jī)回到了上海。
我很清楚地意識(shí)到,這次回來(lái)之后,再回美國(guó)就不容易了。所以回來(lái)之前,我特地到Fine Hall,和我特別喜愛(ài)的辦公室、普林斯頓大學(xué)數(shù)學(xué)系和PACM(Program in Applied and Computational Mathematics)作了告別。我在這里工作了21年,真的是特別喜歡這里的工作環(huán)境和學(xué)術(shù)氛圍。因?yàn)槭且咔槠陂g,老師和學(xué)生都在家里辦公,所以整個(gè)過(guò)程沒(méi)有碰到其他人。
在上海的隔離期間,我做了三件事情:給普林斯頓大學(xué)數(shù)學(xué)系和PACM寫了辭職信;給四個(gè)朋友發(fā)了我在飛機(jī)上寫的“落地信”,信中講了我的一些設(shè)想和工作計(jì)劃;學(xué)會(huì)用PPT準(zhǔn)備了一個(gè)題為“數(shù)學(xué)、科學(xué)與人工智能”的報(bào)告。這是一個(gè)在腦子里已經(jīng)盤繞了三年,被我稱為“科學(xué)史上最ambitious的計(jì)劃”。
兩周之后,十月一號(hào)的晚上(當(dāng)天也是中秋節(jié)),我趕到交大閔行校區(qū),在第二天的“文俊論壇”上做了這個(gè)報(bào)告。
其實(shí)我1985年出國(guó)的時(shí)候,就是沖著回國(guó)去的。為此,我做了一件被許多人認(rèn)為很愚蠢的事情:把F1簽證(自費(fèi))換成了J1簽證(自費(fèi)公派),還因此耽擱了UCLA數(shù)學(xué)系的部分博士資格考試。
我職業(yè)生涯中最關(guān)鍵的時(shí)間節(jié)點(diǎn)是1982年的寒假。回科大前的最后一天,我決定放棄純數(shù)學(xué),改行研究應(yīng)用數(shù)學(xué),目的是讓我的工作能夠直接應(yīng)用于社會(huì),能夠直接幫助到我的國(guó)家。由于數(shù)學(xué)界普遍認(rèn)為中國(guó)的應(yīng)用數(shù)學(xué)不太行,所以我一定得到國(guó)外去學(xué)。
后來(lái)的事實(shí)證明這的確是一個(gè)極其天真的想法,因?yàn)橐恢钡饺曛螅叶紱](méi)有覺(jué)得我的工作真的有用。我職業(yè)生涯的大部分時(shí)間都處在表面上一帆風(fēng)順、內(nèi)心里充滿疑慮的狀態(tài)。的確我的工作也有許多人用,但是他們的工作似乎離實(shí)際問(wèn)題還有很大距離。
記得2011年的夏天,我交付了“Principles of Multi-scale Modeling”這本書的最終版本之后,躺在北大資源大廈辦公室的沙發(fā)上,覺(jué)得這一輩子應(yīng)該是做不出真正有用的原創(chuàng)性工作了。既然大數(shù)據(jù)很重要,我自己也呼吁了許多年,就改行做大數(shù)據(jù)吧。
真正徹底下決心改行是2014年。從2004年開始我就在國(guó)內(nèi)呼吁大數(shù)據(jù)算法的重要性。我本人的專業(yè)是科學(xué)計(jì)算中的算法。在當(dāng)時(shí),這是兩個(gè)距離很遠(yuǎn)的不同領(lǐng)域(現(xiàn)在它們很近了,部分原因也是來(lái)自于我本人的工作),所以我自己并沒(méi)有下決心改行研究大數(shù)據(jù)算法,而是希望其他相鄰領(lǐng)域的專家們重視起來(lái)。
但是呼吁了十年,組織了很多會(huì)議、討論班,效果甚微。到2014年,大數(shù)據(jù)已經(jīng)開始紅火起來(lái),而大數(shù)據(jù)算法研究在國(guó)內(nèi)卻比較冷清。我感到?jīng)]有別的辦法,只有自己徹底轉(zhuǎn)行,研究大數(shù)據(jù)中的算法。
這個(gè)經(jīng)歷是到目前為止我職業(yè)生涯中最大的教訓(xùn):一件事情如果真的重要,就應(yīng)該自己去做。希望年輕人不要犯同樣的錯(cuò)誤。
研究大數(shù)據(jù)算法,具體來(lái)說(shuō)就是研究機(jī)器學(xué)習(xí)。很快我就發(fā)現(xiàn),機(jī)器學(xué)習(xí)研究的問(wèn)題跟我的老本行計(jì)算數(shù)學(xué)研究的問(wèn)題其實(shí)是很類似的,都是函數(shù)逼近(有監(jiān)督學(xué)習(xí))、概率分布的逼近和采樣(無(wú)監(jiān)督學(xué)習(xí)或者生成式人工智能),以及解方程(強(qiáng)化學(xué)習(xí))。
但有一個(gè)重大區(qū)別:例如同樣是圖像問(wèn)題,計(jì)算數(shù)學(xué)圈子里只研究單個(gè)圖片的處理,如壓縮或去噪,而機(jī)器學(xué)習(xí)圈子里討論的卻是圖像識(shí)別這種涉及到整個(gè)圖像數(shù)據(jù)集的問(wèn)題。前者是二維問(wèn)題,后者是我們想都不敢想的極高維問(wèn)題,原因是“維數(shù)災(zāi)難”(計(jì)算復(fù)雜度隨著維數(shù)的增加而指數(shù)增加)。難道做機(jī)器學(xué)習(xí)的人有什么魔術(shù)?很快我意識(shí)到,深度學(xué)習(xí)很可能提供了克服“維數(shù)災(zāi)難”的有效路徑。
這是我職業(yè)生涯中最重要的頓悟,因?yàn)樗馕吨覀兛梢灾厮軘?shù)學(xué)和科學(xué)。從數(shù)學(xué)的角度來(lái)說(shuō),我們通常研究的要么是低維空間的數(shù)學(xué),如泰勒展開,要么就是無(wú)窮維空間的數(shù)學(xué),如泛函分析。高維空間的數(shù)學(xué)結(jié)構(gòu)是一個(gè)極其宏大的新課題。深度學(xué)習(xí)和人工智能賦予了這個(gè)問(wèn)題非常重要的實(shí)際意義。如果我們生活的空間不是3維而是30維,那么我們一開始就不應(yīng)該學(xué)習(xí)多項(xiàng)式和泰勒展開,而是神經(jīng)網(wǎng)絡(luò)。這意味著我們應(yīng)該圍繞高維情形重構(gòu)數(shù)學(xué)。
從科學(xué)的角度來(lái)說(shuō),以前困擾我們的許多問(wèn)題,其本質(zhì)困難都來(lái)自于維數(shù)災(zāi)難,這在科學(xué)計(jì)算領(lǐng)域尤為明顯。在這一點(diǎn)上我的感受可能是最深切的。在我?guī)资陮で笥袑?shí)際應(yīng)用的原創(chuàng)研究課題的探索中,我嘗試了許多不同的領(lǐng)域。我在中科院學(xué)的是計(jì)算數(shù)學(xué),到UCLA之后學(xué)習(xí)計(jì)算流體力學(xué),然后又轉(zhuǎn)行到材料科學(xué)、計(jì)算化學(xué)、化工、生物學(xué)等等。
我研究過(guò)地球的磁場(chǎng)、太陽(yáng)表面的對(duì)流、磁約束的核聚變、復(fù)雜化學(xué)反應(yīng)的理論和計(jì)算、超導(dǎo)的理論模型等多種多樣的問(wèn)題。可以說(shuō)除高能物理和量子信息以外,很難找到一個(gè)理科或工科中的主要理論和計(jì)算問(wèn)題,我沒(méi)有花功夫研究過(guò)。而所有這些問(wèn)題最終的難點(diǎn)都來(lái)自于“維數(shù)災(zāi)難”。既然深度學(xué)習(xí)可以幫助我們解決維數(shù)災(zāi)難問(wèn)題,那么它必將改變我們做科學(xué)研究的方式方法。
2017年春天,我開始清楚地意識(shí)到兩件事情:
人工智能將帶來(lái)廣泛的影響。因?yàn)锳lphaGo背后的原理是具有普適性的,它可以被應(yīng)用到所有需要決策的場(chǎng)景,而決策是人類最重要的事情。
科技戰(zhàn)已經(jīng)不可避免,我們要為應(yīng)對(duì)科技戰(zhàn)做準(zhǔn)備。2017年夏天的一個(gè)晚上,我一邊看著電視,一邊思考著這些問(wèn)題,腦子里逐漸梳理出三個(gè)清晰的方向:一是作為人工智能的基礎(chǔ),我們必須構(gòu)建處理“非結(jié)構(gòu)化數(shù)據(jù)”的基礎(chǔ)設(shè)施,把門檻和成本降下來(lái)。二是人工智能方法將全面改變我們的科研范式,這是一個(gè)前所未有的機(jī)會(huì),如果中國(guó)抓住了這個(gè)機(jī)會(huì),它很可能可以幫助我們一下子走到領(lǐng)先的位置。
三是作為一個(gè)制造業(yè)大國(guó),我們必須構(gòu)建自主可控的制造業(yè)基礎(chǔ)設(shè)施——工業(yè)軟件和高端裝備。當(dāng)時(shí)覺(jué)得高端裝備方面我無(wú)能為力,但是工業(yè)軟件的任務(wù)必須扛下來(lái)。突然之間,我意識(shí)到我的科研不僅有用,而且比我設(shè)想的還更加有用!
十年推動(dòng)大數(shù)據(jù)算法而效果甚微的教訓(xùn)讓我意識(shí)到,與其花精力去說(shuō)服其他人,還不如下決心帶領(lǐng)年輕人把這些事情都做起來(lái)。但突然間這么多任務(wù)一下子壓過(guò)來(lái),我內(nèi)心深處感受到巨大的恐懼,那種恐懼感至今難忘。
其實(shí)當(dāng)時(shí)還布局了第四個(gè)項(xiàng)目:宏觀經(jīng)濟(jì)的精準(zhǔn)和精細(xì)預(yù)測(cè)。從經(jīng)濟(jì)發(fā)展的角度來(lái)說(shuō),最讓人擔(dān)心的就是宏觀層面出現(xiàn)大起大落,它不但影響到經(jīng)濟(jì)體系的運(yùn)行,同時(shí)也影響到消費(fèi)者和生產(chǎn)者的信心。精準(zhǔn)預(yù)測(cè)能夠幫助我們避免許多系統(tǒng)風(fēng)險(xiǎn)。
過(guò)去由于受方法和數(shù)據(jù)的限制,我們很難做到精準(zhǔn)精細(xì)預(yù)測(cè)。在大數(shù)據(jù)和深度學(xué)習(xí)時(shí)代,情況不一樣了,我們可以通過(guò)整體建模,利用大量弱信號(hào),來(lái)對(duì)宏觀經(jīng)濟(jì)作精準(zhǔn)精細(xì)預(yù)測(cè)。這是一個(gè)非常值得做的事情,我們也做了很多探索,我堅(jiān)信這是可行的。但由于種種原因,盡管花費(fèi)了不少精力,這個(gè)項(xiàng)目已經(jīng)被暫時(shí)擱置了。
2018年北京大數(shù)據(jù)研究院的三周年慶典上,我的三個(gè)學(xué)生,邰騁、張林峰、楊雨成,分別就上面四個(gè)題目中的三個(gè)做了報(bào)告。這些報(bào)告沒(méi)有引起注意,但它們的內(nèi)容是很有前瞻性和原創(chuàng)性的。
AI for Science
推動(dòng)AI for Science,得從培養(yǎng)學(xué)生做起。
2017年春天,韓劼群和張林峰已經(jīng)在分子動(dòng)力學(xué)方面做出了一些非常好的結(jié)果,但是系統(tǒng)推進(jìn)深度學(xué)習(xí)在各個(gè)領(lǐng)域、各種科學(xué)計(jì)算問(wèn)題中的應(yīng)用,還需要更多人的參與。2017年圣誕節(jié)的時(shí)候,我召集了我研究生涯中唯一一次全員組會(huì),跟學(xué)生們講了兩方面的事情:一是人工智能之于數(shù)學(xué)、之于科學(xué)和之于中國(guó),它意味著什么?二是人工智能賦能科學(xué)研究帶來(lái)的機(jī)會(huì),只有一百年前量子力學(xué)被發(fā)明的時(shí)候可以比擬。
2017年底,張林峰和王涵推動(dòng)成立了DeepModeling開源社區(qū),用于交流人工智能賦能科學(xué)的算法方面的成果。
2018年夏天,湯超和我在北大組織了“AI for Science”內(nèi)部交流會(huì)議。這很可能是國(guó)際上第一次使用“AI for Science“的說(shuō)法。會(huì)后我拉著張平文一起去見(jiàn)林建華校長(zhǎng),建議在北大成立“AI for Science”研究院。林校長(zhǎng)對(duì)這個(gè)建議很支持,認(rèn)為是將來(lái)可以“批量出諾貝爾獎(jiǎng)”的方向。他還給我們出了一個(gè)難題:這個(gè)研究院的中文名字應(yīng)該叫什么?但林校長(zhǎng)不久就退休了,這個(gè)建議沒(méi)有得到落實(shí)。
2018年我還鼓勵(lì)張林峰和孫偉杰成立了深勢(shì)科技。當(dāng)時(shí)有兩個(gè)目的。一是推動(dòng)真正落地,二是通過(guò)企業(yè)的融資獲得必要的資金支持。考慮到我整合資源的能力有限,又有許多基礎(chǔ)性工作需要完成,后面這一點(diǎn)是必要的。幾年下來(lái),深勢(shì)科技對(duì)推動(dòng)中國(guó)AI for Science的發(fā)展的確起到了不可替代的作用。
我回國(guó)之后的一件重要工作就是宣傳人工智能對(duì)科學(xué)研究將會(huì)帶來(lái)的整體影響。我走訪了交大、復(fù)旦、科大、北大和清華等五所高校,給學(xué)生宣傳AI for Science,又組織了機(jī)器學(xué)習(xí)線上討論會(huì),取得了一定的效果。
但真正有幫助的是另外兩件事情:一是2020年底在北京市的支持下組織成立北京科學(xué)智能研究院。這是國(guó)際上第一個(gè)以“AI for Science”為主題的科研機(jī)構(gòu)。二是2021年國(guó)家自然科學(xué)基金委交叉學(xué)部立項(xiàng)“可解釋、可通用的下一代人工智能方法”重大研究計(jì)劃,這是國(guó)內(nèi)第一個(gè)系統(tǒng)支持AI for Science的研究計(jì)劃。這兩件事情都是在AI for Science還沒(méi)有得到廣泛認(rèn)可的情況下做起來(lái)的,它充分體現(xiàn)了相關(guān)領(lǐng)導(dǎo)的前瞻性眼光。
幾年下來(lái),AI for Science已成燎原之勢(shì)。今年8月份國(guó)務(wù)院出臺(tái)的“人工智能+”行動(dòng)意見(jiàn)高度重視人工智能賦能的科研范式變革。國(guó)內(nèi)涌現(xiàn)出了一大批非常有潛力的年輕科學(xué)家,他們積極參與到了AI for Science的浪潮之中。一些資深的科學(xué)家們也積極擁抱AI for Science,用人工智能方法推動(dòng)相關(guān)領(lǐng)域的根本性變革。
8月中旬,丁洪、湯超和我一起在大理組織了一個(gè)AI for Science的會(huì)議,這是一個(gè)具有極高水平的前瞻性學(xué)術(shù)討論。我們非常欣喜地看到一批極具創(chuàng)造力的年輕人站在講臺(tái)上,為聽(tīng)眾勾畫出人工智能賦能下他們各自領(lǐng)域的未來(lái)。
我推動(dòng)AI for Science的核心目的是利用人工智能帶來(lái)的機(jī)會(huì),率先推動(dòng)我國(guó)整體科研和研發(fā)范式的改變,而不僅僅是解決幾個(gè)亮點(diǎn)問(wèn)題。
要實(shí)現(xiàn)這個(gè)目標(biāo),最重要的就是建立新的基礎(chǔ)設(shè)施。科研和研發(fā)依賴的方法和工具無(wú)非是文獻(xiàn)或已有資料,理論或計(jì)算,最終是實(shí)驗(yàn),這些工具是科研效率的關(guān)鍵因素。過(guò)去我們讀文獻(xiàn)和學(xué)習(xí)資料的能力非常有限,理論和計(jì)算方法難以處理實(shí)際場(chǎng)景的問(wèn)題,實(shí)驗(yàn)往往是靠經(jīng)驗(yàn)和試錯(cuò),加上作坊式的組織形式,使得科研和研發(fā)的周期長(zhǎng)、效率低。人工智能的賦能,能從很大程度上幫助我們突破這些瓶頸。
這些突破意味著我們可以建立起一整套新的科研基礎(chǔ)設(shè)施。我們從一開始就把工作重心放在基礎(chǔ)設(shè)施建設(shè)上。先是從計(jì)算工具入手,又逐漸拓展到文獻(xiàn)和實(shí)驗(yàn)工具,并形成了“四梁N柱”的架構(gòu)。
經(jīng)過(guò)幾年的努力,我們已經(jīng)建立起了一套比較完整的基礎(chǔ)設(shè)施,張林峰、李鑫宇、孫偉杰等年輕人把它命名為“玻爾科研空間站”。用玻爾的名字,是因?yàn)椴柺橇孔恿W(xué)的先驅(qū)者——先有玻爾,后有薛定諤。玻爾空間站已經(jīng)被全國(guó)最頂尖的高校廣泛采用。
在此基礎(chǔ)上,上海交大人工智能學(xué)院、深勢(shì)科技和上海算法創(chuàng)新研究院一起開發(fā)了第一個(gè)真正意義上的科學(xué)基座模型Innovator和科研智能體SciMaster。盡管它們沒(méi)有玻爾空間站完善,但我相信它們不久也將會(huì)被科研工作者們廣泛使用,并成為新一代科研基礎(chǔ)設(shè)施中不可或缺的一部分。
應(yīng)該說(shuō),在AI for Science基本設(shè)施的布局上,我們是比較超前的。國(guó)外一直到剛剛出臺(tái)的“創(chuàng)世紀(jì)計(jì)劃”中才真正認(rèn)識(shí)到基礎(chǔ)設(shè)施的重要性,其主要思路也基本上沿用了我們一直在推進(jìn)的路線。不過(guò)創(chuàng)世紀(jì)計(jì)劃的力度還是相當(dāng)可觀的。
跟大模型情況不太一樣,我國(guó)AI for Science的發(fā)展走了一條相對(duì)比較獨(dú)立的路徑。目前已經(jīng)初步形成了一個(gè)完整體系:玻爾空間站和SciMaster兩大入口級(jí)平臺(tái);以科大機(jī)器化學(xué)家和嘉庚實(shí)驗(yàn)室大設(shè)施為代表的規(guī)模化、自動(dòng)化實(shí)驗(yàn)裝置;以及以植物星球、材料基因組工程、藥物設(shè)計(jì)、數(shù)字細(xì)胞、人類蛋白組計(jì)劃、有機(jī)合成、智能化儀器設(shè)備、催化、民用航天發(fā)動(dòng)機(jī)、核聚變等為代表的典型應(yīng)用場(chǎng)景。智能化改造已經(jīng)成為許多理論和實(shí)驗(yàn)團(tuán)隊(duì)的剛需。最為令人欣慰的是一大批年輕人成為了骨干力量,他們正在用他們的工作來(lái)改變他們所在的領(lǐng)域,許多人在各自的領(lǐng)域中已經(jīng)走在了國(guó)際前沿。
隨著基礎(chǔ)設(shè)施的逐漸成熟和AI for Science理念的高度普及,AI for Science 的重點(diǎn)應(yīng)該回到科學(xué)問(wèn)題本身,科學(xué)家應(yīng)該成為主要推動(dòng)者。另一方面,生產(chǎn)力的提升必將推動(dòng)生產(chǎn)關(guān)系的改變。人工智能時(shí)代的科研組織形式應(yīng)該是什么樣子的?這些問(wèn)題將會(huì)成為AI for Science 發(fā)展的中心問(wèn)題。
在推動(dòng)AI for Science的過(guò)程中,我們得到了許多人的支持。這里就不一一把他們的名字列舉出來(lái),但是我從內(nèi)心里感激他們。
隨著AI for Science逐漸成為新的熱點(diǎn),許多令人擔(dān)憂的事情也開始出現(xiàn)。最為令人擔(dān)憂的是資源配置的不合理,例如,許多有能力的年輕人并不處在有利位置,而他們才是推動(dòng)AI for Science發(fā)展的主力軍。資源的錯(cuò)誤配置帶來(lái)的不僅僅是資源浪費(fèi),還有可能是方向性的誤導(dǎo)。
我個(gè)人堅(jiān)定地認(rèn)為,AI for Science是中國(guó)科技創(chuàng)新歷史上最好的機(jī)會(huì),沒(méi)有之一,但這是以理性的資源配置作為前提的。如果我們不迅速解決資源配置的問(wèn)題,我們將失去這個(gè)千載難逢的機(jī)會(huì)。
工業(yè)軟件和工業(yè)智能
對(duì)中國(guó)這樣一個(gè)制造業(yè)大國(guó)來(lái)說(shuō),工業(yè)軟件是基礎(chǔ)中的基礎(chǔ),核心中的核心。就我從事的科學(xué)計(jì)算領(lǐng)域來(lái)說(shuō),最直接的應(yīng)用就是工業(yè)軟件。所以工業(yè)軟件是我最早注意到的應(yīng)用場(chǎng)景。但軟件實(shí)在不是我的強(qiáng)項(xiàng)。十幾年前我就開始找人討論工業(yè)軟件的問(wèn)題。由于各種原因,這些討論都不了了之。2017年,我意識(shí)到工業(yè)軟件的問(wèn)題已經(jīng)不能再等了,就找到科大的楊周旺教授,建議他立即著手開發(fā)工業(yè)軟件的幾何內(nèi)核。他當(dāng)場(chǎng)表示,他退休前一定要把幾何內(nèi)核搞定。
幾何內(nèi)核是工業(yè)軟件的基礎(chǔ)。我國(guó)計(jì)算幾何方面的人才比較缺乏,愿意下決心做出商業(yè)上可用的幾何內(nèi)核的人更是寥寥無(wú)幾。而我國(guó)在微分方程求解(即CAE的核心)方面的人才比較多。所以如果幾何的問(wèn)題解決了,我們就不太怕斷供了。
八年下來(lái),楊周旺帶領(lǐng)開發(fā)的九韶內(nèi)核已經(jīng)發(fā)布了五個(gè)版本,成為國(guó)際五大商用幾何內(nèi)核中的一個(gè)。三百多萬(wàn)行的代碼都是他們團(tuán)隊(duì)自己寫的,基本覆蓋了商用內(nèi)核需要的所有功能。九韶內(nèi)核已經(jīng)被應(yīng)用到許多場(chǎng)景,包括飛機(jī)、汽車在內(nèi)的高端應(yīng)用場(chǎng)景。現(xiàn)在九韶團(tuán)隊(duì)的工作重心已經(jīng)轉(zhuǎn)移到如何在九韶內(nèi)核的基礎(chǔ)上開發(fā)CAD、CAE、CAM等軟件,建立“九韶生態(tài)”。
制造業(yè)的另外一個(gè)根基是機(jī)床。機(jī)床有硬件和軟件部分,其中高端數(shù)控系統(tǒng)仍然是一個(gè)卡脖子問(wèn)題。經(jīng)過(guò)一段曲折的過(guò)程,我們和通用技術(shù)集團(tuán)機(jī)床工程研究院上海分院形成了合作,開發(fā)高端數(shù)控系統(tǒng)。現(xiàn)在算法方面的工作已經(jīng)基本完成,也開發(fā)了數(shù)控系統(tǒng)原型,并完成了初步的加工測(cè)試。
這得感謝通用技術(shù)集團(tuán)的支持,也得感謝我的學(xué)生和博士后胡衛(wèi)、龍吉昊和趙振華。他們從零開始,頂著發(fā)表論文、爭(zhēng)取帽子、前景不明等多種壓力,全身心地投入到這項(xiàng)工作中。胡衛(wèi)和龍吉昊從普林斯頓大學(xué)回國(guó)的時(shí)候,沒(méi)有提出任何要求也沒(méi)有安排好的工作在等著他們,只是抱著為國(guó)家做事情的決心。另外一個(gè)學(xué)生楊泓康也是這樣,他們的精神真是讓我感動(dòng)。
工業(yè)管理智能化是制造業(yè)的另外一個(gè)新的發(fā)展空間。它同樣是一個(gè)困難問(wèn)題,因?yàn)橹圃鞓I(yè)場(chǎng)景多種多樣,而且異常復(fù)雜。顧敏潔帶領(lǐng)的品見(jiàn)團(tuán)隊(duì)抱著把每一個(gè)項(xiàng)目都挖掘到極致的態(tài)度,啃了一個(gè)又一個(gè)硬骨頭,現(xiàn)在終于開始摸索到一條比較通用的技術(shù)路徑。
經(jīng)過(guò)這些基礎(chǔ)性工作,推動(dòng)AI for Manufacturing的條件已經(jīng)開始成熟。我自己也會(huì)把更多精力放到這個(gè)方向上來(lái)。這是解決我國(guó)高端制造業(yè)難題的極好機(jī)會(huì)。
Data-centric AI基礎(chǔ)設(shè)施建設(shè)
十年前,我牽頭組織了一個(gè)“非結(jié)構(gòu)化數(shù)據(jù)分析”973項(xiàng)目。這個(gè)過(guò)程讓我充分認(rèn)識(shí)到,非結(jié)構(gòu)化數(shù)據(jù)(例如文本、圖像、語(yǔ)音、視頻)是人工智能發(fā)展的核心資源也是核心困難,非結(jié)構(gòu)化數(shù)據(jù)處理的成本和門檻是人工智能能否成功落地的關(guān)鍵。
與此同時(shí),邰騁和湯林鵬在指紋識(shí)別方面取得了革命性突破。他們?cè)谏倭咳斯?biāo)注數(shù)據(jù)的基礎(chǔ)上,利用基于深度學(xué)習(xí)的特征提取和迭代改進(jìn)(我把這個(gè)想法稱為“墨奇算法“),使指紋識(shí)別的效率和準(zhǔn)確率有了幾個(gè)數(shù)量級(jí)的提升,幫助有關(guān)部門以極低的成本建立起了幾十億級(jí)指紋管理的大庫(kù)。
我們很快意識(shí)到,上述方法不僅適用于指紋,它其實(shí)適用于一般性的非結(jié)構(gòu)化數(shù)據(jù),其核心是構(gòu)建一個(gè)非結(jié)構(gòu)化數(shù)據(jù)庫(kù)(現(xiàn)在通常被稱為AI數(shù)據(jù)庫(kù),向量數(shù)據(jù)庫(kù)是一個(gè)特例),它能夠在同一個(gè)系統(tǒng)中管理各種不同模態(tài)的數(shù)據(jù),并進(jìn)行高效率聯(lián)合查詢,比方說(shuō)用語(yǔ)言搜索圖片或者用圖片搜索圖片。
這之前已經(jīng)有了向量搜索工具,但還沒(méi)有完整的向量數(shù)據(jù)庫(kù),更別談一般性的AI數(shù)據(jù)庫(kù)。邰騁和湯林鵬帶領(lǐng)的團(tuán)隊(duì)在國(guó)際上最早提出AI數(shù)據(jù)庫(kù)的概念 (2018年)并開發(fā)了第一個(gè)AI數(shù)據(jù)庫(kù)。這是一個(gè)了不起的貢獻(xiàn)。
有了這樣的數(shù)據(jù)庫(kù),我們就可以低成本、低門檻地開發(fā)滿足特殊需求的AI模型,例如許多任務(wù)只需通過(guò)簡(jiǎn)單的搜索就完成了。有了許許多多這樣的小模型,我們只需要一個(gè)操作系統(tǒng)來(lái)管理和調(diào)度這些小模型就可以了。2020年我們就開始推這樣的框架。這其實(shí)就是現(xiàn)在智能體的應(yīng)用框架,只不過(guò)現(xiàn)在的框架都是基于大模型底座的。
大模型的興起表明人工智能創(chuàng)新的重心由模型逐步轉(zhuǎn)向數(shù)據(jù)。在以模型為中心的時(shí)代,AI行業(yè)建立起了一整套相應(yīng)的基礎(chǔ)設(shè)施,如TensorFlow這樣的工具,它讓我們能夠低門檻、高效率地探索不同的模型架構(gòu)。TensorFlow出現(xiàn)之前我們探索不同的模型架構(gòu)只能靠人工、靠經(jīng)驗(yàn)、靠試錯(cuò)。現(xiàn)在在數(shù)據(jù)方面的探索就是這樣。這個(gè)成本極為巨大,也是人工智能在企業(yè)落地的最大障礙。
要解決這個(gè)問(wèn)題,我們就必須建立起一整套數(shù)據(jù)層面的工具平臺(tái)。這是張文濤團(tuán)隊(duì)開發(fā)DataFlow的出發(fā)點(diǎn)。DataFlow可以讓人們像用TensorFlow 玩模型一樣來(lái)玩數(shù)據(jù)。它對(duì)人工智能工具開發(fā)的平民化和人工智能在企業(yè)的落地都會(huì)起到關(guān)鍵作用。
AI數(shù)據(jù)庫(kù)和DataFlow這樣的工具平臺(tái)將成為數(shù)據(jù)方面的基礎(chǔ)設(shè)施,就像GPU、 CUDA和TensorFlow等一起組成了算力層面的基礎(chǔ)設(shè)施一樣。現(xiàn)在大家對(duì)算力層面的基礎(chǔ)設(shè)施有了充分的認(rèn)識(shí),但對(duì)數(shù)據(jù)層面的基礎(chǔ)設(shè)施還缺乏足夠重視。
篇幅所限,上篇暫告一段落。下篇將于近日推出,敬請(qǐng)期待。
本文來(lái)自微信公眾號(hào):知識(shí)分子,作者:鄂維南(中國(guó)科學(xué)院院士、北京大學(xué)數(shù)學(xué)科學(xué)學(xué)院教授)
