商湯CEO徐立：包容、長尾、開放，AI創(chuàng)新的三個策源力

來源：商湯科技編輯：lsy631994092 2020-07-17 09:14:17 加入收藏

上周，盛況空前的2020年世界人工智能大會在上海完美上演，商湯科技從深度、廣度和厚度層面全方位支持大會成功舉辦，演繹大愛(AI)無疆的“三部曲”。7月10日，商湯科技聯(lián)合創(chuàng)始人、首席執(zhí)行官徐立作了題為“人工智能創(chuàng)新策源力 ”的主題演講。

　　“沒有任何技術(shù)是100%準(zhǔn)確的，對技術(shù)創(chuàng)新不能求全責(zé)備，只有包容的態(tài)度，技術(shù)才能真正的發(fā)展。”

　　“當(dāng)效率真正提升時，那些并不是最頭部的應(yīng)用也必須得逐個解決，這是人工智能深入行業(yè)最關(guān)鍵的。”

　　“人工智能細(xì)分場景和細(xì)分應(yīng)用非常多，我們一定要去擁抱一個開放共創(chuàng)的生態(tài)，我們要的不是一棵獨木，而是一片森林。”

　　上周，盛況空前的2020年世界人工智能大會在上海完美上演，商湯科技從深度、廣度和厚度層面全方位支持大會成功舉辦，演繹大愛(AI)無疆的“三部曲”。7月10日，商湯科技聯(lián)合創(chuàng)始人、首席執(zhí)行官徐立作了題為“人工智能創(chuàng)新策源力 ”的主題演講。

　　徐立認(rèn)為，包容、長尾應(yīng)用和開放，是人工智能創(chuàng)新的三個策源力。而這背后的根源，是對人工智能認(rèn)知 的提升。這也延續(xù)了他在去年世界人工智能大會中關(guān)于“人工智能發(fā)展觀”的話題。(詳情可點擊文末文章圖文超鏈《人工智能發(fā)展觀——傳承與創(chuàng)新》閱讀)

　　如下是徐立的演講內(nèi)容，商湯君在這里完整分享給大家：

　　▎ 技術(shù)試錯創(chuàng)造增量價值

　　大家好，歡迎來到“大愛無疆·致遠”商湯人工智能企業(yè)論壇，非常有幸在今年這樣的情況下，依然能夠繼續(xù)和大家在線上及線下一起討論人工智能，討論人工智能的創(chuàng)新策源。

　　首先，我們討論一些技術(shù)以外的東西，上海要打造人工智能發(fā)展高地，要做人工智能的創(chuàng)新策源地，那么究竟有哪些要素是真正推動創(chuàng)新策源的創(chuàng)新力?我今天的演講題目是“人工智能創(chuàng)新策源力”。

奔跑的馬

　　創(chuàng)新很多都來源于藝術(shù)。下面這幅畫是疫情期間，我家小朋友畫的一幅馬。當(dāng)看到這幅畫的時候，我就立刻覺得有點不對。實際上沒有一匹馬是真實像這樣四蹄騰空奔跑的，一般只有兔子會這么跑，雖然有些馬也叫“赤兔”，但說的并不是這個意思。

　　我立馬指出這個問題說馬奔跑的姿勢不對?？墒切∨笥颜f，不是，馬就是這么奔跑的。所以，出于好奇我就去網(wǎng)上搜索奔跑的馬，然后就搜到了一幅名畫，《昭陵六駿圖》。

　　下面這匹也是四蹄騰空的馬，是唐太宗的六匹戰(zhàn)馬之一。事實上，以四蹄騰空這種形式畫奔馬的，歷史上大有人在，著名的畫家郎世寧，還有各式各樣的中西方油畫，不少都以這種方式來展現(xiàn)奔跑。

　　為什么當(dāng)時會有這樣畫法?實際上這是大家對奔跑的馬認(rèn)知程度不夠所造成的。

　　這個問題也不是我第一個研究的，1872年，歐洲攝影家Muybridge就提出了疑問，所以他用攝影技術(shù)連續(xù)拍攝了12幀奔跑的馬，第一次向世人揭示了馬是怎么跑的。馬奔跑過程中，并沒有一個四蹄騰空的狀態(tài)，也就是說之前的人都畫錯了。

　　但是，這些錯誤的探討、錯誤的繪畫，并沒有給藝術(shù)帶來局限。反倒是說像我們的昭陵六駿，從墻上的浮雕、石碑，再到最后的畫卷，是真正意義上推動了寫實繪畫風(fēng)格。直到今天，中國畫馬第一人許勇的馬還是對昭陵六駿寫實畫風(fēng)的傳承。錯誤了沒有關(guān)系，錯誤的概念在這個過程中得到理解，并且正確的部分被延伸下來，就會對后世產(chǎn)生影響 。

　　我想說這種探索，就像胡適所講：怕什么真理無窮，進一寸有一寸的歡喜。

創(chuàng)新不能求全責(zé)備

　　每往前邁一步，就相當(dāng)于有更多東西能夠沉淀下來。人工智能，其實面臨著一個與畫馬相似的過程。

　　2011年，當(dāng)我們在語音識別領(lǐng)域取得巨大突破的時候，行業(yè)里很多人說人工智能深度學(xué)習(xí)在語音中的成功只是一個巧合。

　　2013年，當(dāng)人工智能真的在圖像領(lǐng)域大放異彩時，業(yè)界討論最多的卻是人工智能、深度學(xué)習(xí)是不是過熱了。

　　伴隨著質(zhì)疑聲，我們看下谷歌趨勢(Google Trends)對于深度學(xué)習(xí)熱詞的搜索，下面圖里的曲線代表了業(yè)界對人工智能的熱衷程度。2013年時還只是個小高峰，而在這之后，深度學(xué)習(xí)人工智能才正式意義上進入了大規(guī)模的爆發(fā)，并且影響到各行各業(yè)，這都是在質(zhì)疑聲中發(fā)生的事。

　　同樣，行業(yè)中一個標(biāo)桿性的案例——人臉識別，也一路受到類似質(zhì)疑。作為解鎖和認(rèn)證的一個手段，大家會討論人臉識別的準(zhǔn)確率是不是足夠：人臉識別很容易就誤識，長得很像的弟弟能不能解鎖自己的手機……我相信這些質(zhì)疑，大家都不絕于耳。

　　我們要做技術(shù)，推動創(chuàng)新，其實對它的態(tài)度不能是求全責(zé)備，沒有一個技術(shù)是100%準(zhǔn)確的。我們只有以一個包容的態(tài)度去認(rèn)可技術(shù)的時候，它才有真正的發(fā)展 。

　　以商湯為例，我們今天已賦能4.5億臺手機的人臉解鎖功能，覆蓋幾乎中國所有手機品牌，日均人臉解鎖次數(shù)達到300億次，大家已經(jīng)默認(rèn)人臉能代替密碼;在酒店大堂等很多需要認(rèn)證的地方，商湯總共有20多萬臺智能設(shè)備在線為大家提供服務(wù)，每年酒店入住超過3億人次，我相信，很多人都已經(jīng)習(xí)以為常了，在各式各樣的試錯發(fā)展過程中，我們發(fā)現(xiàn)這些應(yīng)用已經(jīng)被普羅大眾所接受。

　　當(dāng)人臉識別精度不再成為被質(zhì)疑的點，去年我們又迎來各式各樣新的討論。包括：用3D人臉面具去仿冒一個人來解鎖，還有用視頻生成的方式是不是真能夠忽悠機器解鎖。人工智能真假鑒別能力的問題又引起大家一番討論，而就在這樣的質(zhì)疑當(dāng)中，更多城市級別的應(yīng)用發(fā)生了。

　　比如我們的地鐵刷臉乘車方案，在鄭州、西安、哈爾濱等多個城市，已經(jīng)大規(guī)模推出了刷臉支付乘車，現(xiàn)在的技術(shù)已能夠解決城市級別的應(yīng)用。

　　可以看到，在技術(shù)試錯的過程中，每一步的試錯都會帶來增量的價值 ，我認(rèn)為這是驅(qū)動創(chuàng)新的一個重要因素。

　　▎ 長尾應(yīng)用完善價值閉環(huán)

簡單的圖像，復(fù)雜的世界

　　接下來，我們看另外一個例子。

　　這是商湯辦公樓下的一張照片，行人熙熙攘攘。如果用行人檢測算法，我們能夠把圖像中所有行人都有效標(biāo)識出來，好像已經(jīng)對這張圖像進行了充分的解讀。

　　但是，如果要真正對圖像中所有事情都進行分析，我們發(fā)現(xiàn)世界遠遠要比這個復(fù)雜——所有的物體、行人、交通信號燈、指示牌組合在了一起。這樣一張簡單的圖片、日常生活中的普通圖片，都會有數(shù)百種 單一的物體和場景的識別，更不要說理解這些物體、場景之間的關(guān)系。

　　簡單來說，我們要判斷一件事情，比如判斷一個人在騎摩托車，我們需要檢測人、摩托車和地面;如果是人在停摩托車，我們需要檢測人在摩托車邊上，在馬路邊上。如果一只鴿子在天空中飛，那它是信鴿;鴿子在盤子里，可能就是一只乳鴿。

　　所有這些關(guān)系是要通過把物體和物體之間關(guān)聯(lián)起來。著名工業(yè)設(shè)計師凱瑞姆講過：一個人平均每天要接觸到600多個物體。而現(xiàn)代漢語辭典中，總共有1萬多個名詞的物體，種類非常多。如果我們只考慮以上例子中那種三個要素的結(jié)合，也要處理3500多萬種可能性 ，也就是說對于一張現(xiàn)實生活場景中非常普通、簡單的照片，也需要分析千萬級別可能性，才能對它有一個基礎(chǔ)的解讀。

　　舉個例子，下面這張照片中，我們能夠用行人檢測算法把行人都檢測出來。但是，如果作為一個智能城市的檢測案例判斷行人有沒有翻越欄桿，我們就需要檢測關(guān)系，人的持續(xù)動作、欄桿、地面，才能真正識別出來這是一個攀爬的動作。所以，這樣一個簡單的應(yīng)用，牽扯到的復(fù)雜度就已經(jīng)非常高。

　　事實上，我們現(xiàn)在在城市管理的各個細(xì)分場景中，推出了很多類似這樣的場景理解、識別的算法模塊，它能夠解決我們?nèi)粘Ｉ钪懈魇礁鳂拥膯栴}，深入到城市的每一個毛細(xì)血管中。

人工智能深入行業(yè)最關(guān)鍵的點是什么？

　　下面再舉兩個例子。

　　共享單車前幾年非?；?，但也隨之帶來了單車停放和管理的問題。2017年，共享單車初露端倪時，有人曾估計會帶來接近3.5萬個整理單車的額外工作崗位，假如共享單車呈指數(shù)級提升，可能會有數(shù)以十萬計的工作人員需要每天去處理這些共享單車的停放問題，包括停放位置是不是違停，是不是傾倒等。

　　其實，我們用上面所介紹的方法，就能夠解決共享單車的停放監(jiān)管問題，能夠識別它的違停，可以檢測車和車之間的關(guān)系，車和停放區(qū)域的關(guān)系，車是不是停成整齊的一條線等。

　　再看另外一個比較有意思的例子，這個可能是二三線城市會遇到的問題，糞車偷排。很多糞車找到一個井蓋，沒有停到固定的位置上就進行偷排，對環(huán)境污染非常嚴(yán)重。當(dāng)我們要解決這個問題時，需要解決糞車和井蓋的檢測、井蓋異常的檢測等。

　　可是，我一直問我們同事一個問題，車停在那里，怎么知道它到底是抽還是排呢?我們根本看不到管子里面的情況。但我的同事跟我解釋，其實根本不需要，只要是有井蓋異常，并且糞車在那停的時間過長，在不該停車的地方停了，就是一個違規(guī)報警——把時間維度放到這個問題里。

　　我們的算法可以把時間、地點、人物關(guān)系串聯(lián)，使我們真正能夠解決這些城市管理中長尾的、細(xì)小的應(yīng)用。

　　接下來看一下商湯在上海長寧區(qū)做的一網(wǎng)統(tǒng)管的案例。

　　一個是關(guān)于共享單車的，另一個是亂扔垃圾的，大家看一下視頻。

　　第一個案例中，記者去模擬了一次共享單車的亂停放，僅12分鐘后這個違規(guī)行為就從發(fā)現(xiàn)到被志愿者解決了。亂扔垃圾的案例中，借助一網(wǎng)統(tǒng)管，志愿者們也只用9分多鐘就完成了從發(fā)現(xiàn)到處置的整個過程，當(dāng)然我們也可以看到上海市民素質(zhì)還是非常高的，在人工智能發(fā)揮作用之前，就有人工已經(jīng)先發(fā)揮了作用。

　　各式各樣的細(xì)小應(yīng)用，也隨著疫情的延伸出現(xiàn)了新的變化。

　　看一下西班牙，疫情期間政府限制大家出行，但因為有時寵物需要出門，所以只允許遛狗可以上街。因此，當(dāng)?shù)爻霈F(xiàn)了各種各樣的花式遛狗，有溜玩具的、遛行李箱的，甚至借鄰居的狗去溜的，所以這個過程中就需要城市治理有一個“狗只”識別功能。目前，我們的系統(tǒng)中有一個大型犬只是否系狗繩的識別，并且能夠判斷是不是狗。

　　右邊的圖是我們進行識別之后的，可以判斷第一個是溜螃蟹，并不是狗，其他三張圖片中的狗都被正確識別出來。事實上，算法還能解決識別不同類型的犬只。城市綜合治理接下來要解決狗只上牌的問題，我相信在這方面算法會起到很大的作用。

　　當(dāng)然算法也不是無所不能的，也會有一些特殊的案例：這個看上去非常像狗的動物，其實是人假扮的?？赡茉谶@種情況下，我們對算法還需要有一些容忍度。

　　以上講到的這些應(yīng)用在日常生活中都是比較小眾的，垃圾拋灑、糞車偷排、違停、遛狗。但是，長尾的這些應(yīng)用才是真正完善價值閉環(huán)的核心。

　　什么叫長尾應(yīng)用?像人臉識別、行人識別這些大家關(guān)注度高、應(yīng)用頻率非常高的我們叫頭部應(yīng)用，就像下面這只恐龍的頭部。但是，還有剛才提到的那些應(yīng)用頻次比較低的，像恐龍的尾巴，就叫長尾應(yīng)用。我們認(rèn)為，最核心的部分一定是要把長尾應(yīng)用的性能進行突破，才真正形成了價值閉環(huán) 。

　　我們說人工智能可以代替我們做很多工作，很多人覺得人工智能如果能夠控制小區(qū)安全出入，它就能代替保安了。但是，它只是代替了保安的一個功能。保安可以做很多事，可以巡視、可以代收快遞，如果只取代一個出入管理的功能，人工智能是永遠沒法勝任一個完整的保安工作的。

　　當(dāng)效率真正提升時，那些并不是最頭部的應(yīng)用，也必須得逐個解決，這才是人工智能深入到行業(yè)最關(guān)鍵的一點 ，長尾的應(yīng)用才能夠完善價值閉環(huán)。

　　▎ 開放共創(chuàng)生態(tài)

人工智能生成內(nèi)容的那一天會來得非?？?/strong>

　　下面我們來看一張廁所的照片，這張照片有什么不妥的地方嗎?對，就是廁紙的位置，上廁所時，廁紙在這么遠的地方，是不是有些奇怪?

　　看一下這個是怎么來的，右側(cè)這個框是我們的算法框架，叫MMEditing，可以任意移動圖像上的物體進行編輯，比如改換地毯的位置。試想一下，如果未來這些編輯能夠有效地把圖片和視頻中的東西移到你想要的任何位置時，人工智能能夠生成內(nèi)容的那一天，其實會來得非?？臁?/p>

　　這些技術(shù)的實用價值還有待進一步挖掘，但是人工智能真的還能做更多有意思的事情。

　　比如MMEditing框架，能夠?qū)崟r從大家跳舞的動作中抽取骨架，并且是一個穩(wěn)定的骨架搜索。那么我們在做運動的時候，就可以很精確地把骨架進行分析。下圖中間是一名冰壺運動員在清理地面時的一個動作抽取，當(dāng)這些問題都能很輕松地提取結(jié)果時，我們很多的運動分析和判斷都能夠通過機器來完成。

　　還有一些語義上的編輯，比如說要生成一只貓，上面最右側(cè)的圖片是我們用GAN算法生成的。生成這只貓的過程中，我們現(xiàn)在可以加入很多語義的控制量，比如讓貓大一點，貓頭大一點，耳朵長一點，眼睛大一點，這些諸多變量的變化都可以通過語義來控制生成的過程，并且是用一個解析的方式真正地完成貓的生成過程。

　　試想一下，除了剛才編輯真實的內(nèi)容之外，我們還可以在環(huán)境當(dāng)中去生成我們?nèi)魏蜗胍?，比如卡通人物照片里面的臉形、眼睛的大小、發(fā)型的變化，都能夠通過語義的調(diào)節(jié)來進行新的生成。

　　還有PS照片，對于單張照片我們可以比較容易通過各種軟件進行編輯，對于實時的視頻，我們現(xiàn)在也可以很輕易地做到這一點。用這樣一個簡單的方法，就能把你不想要的東西給清除了。

　　在拍攝的視頻場景中，如果有一些不小心進入畫面的人或物體就可以輕易地給抹去。未來，人工智能能夠很便捷地大規(guī)模生成各式各樣符合觀眾習(xí)慣的視頻和內(nèi)容 。

開源框架OpenMMLab

　　以上提到的這些都是在一個框架中，一個開源的框架，叫OpenMMLab。MM代表的是多媒體(Multimedia，不是MingMing，也不是MeiMei)，解決的是多種媒體的融合。

　　1個算法的框架，10多個研究垂直領(lǐng)域，100多種算法和600多種預(yù)訓(xùn)練的模型，商湯和香港中文大學(xué)-商湯聯(lián)合實驗室一起推出了迄今為止最完備 的算法體系和框架。

　　我們從2018年10月份開源第一個框架算法到現(xiàn)在，兩年多時間，已在GitHub收獲了16895個星標(biāo) ，是全中國所有開源框架當(dāng)中星數(shù)最多的。除此之外，我們還會有更多的這樣框架上線。

　　雖然我們開源的時間只有短短兩年，但任何一個框架都經(jīng)過了非常長時間的積累。

　　以圖像編輯來說，我們在2014年時推出了全世界第一套用深度學(xué)習(xí)做超分辨率的框架，放到了MMEditing中。

　　今天，我們累積了大量的學(xué)術(shù)論文和學(xué)術(shù)成果，讓這套框架開源，使得很多學(xué)術(shù)的比較、最好的最先進的算法框架的實現(xiàn)，都能夠在其中完成，讓研究人員能夠更好地與傳統(tǒng)算法做比較，和最優(yōu)秀的算法做比較，讓工業(yè)界能夠很快地上手去完成第一步的啟動。這是我們推出開源框架的一個核心的作用。

　　很多時候，大家如果要去找一棵大樹的時候，都會想到去森林里面找，所以人工智能也是一樣。人工智能的細(xì)分場景和細(xì)分應(yīng)用非常多，我們一定要去擁抱這樣一個開放共創(chuàng)的生態(tài) ，我們要的不是一棵獨木，我們要的是一片森林 ，所以最關(guān)鍵的一個創(chuàng)新驅(qū)動力叫做“開放”。

　　▎ 總結(jié)：人工智能創(chuàng)新的三個策源力

　　我們來總結(jié)一下剛才所講的三個創(chuàng)新策源力。

　　第一，我們要做的是包容，我們不能對算法求全責(zé)備。

　　很多人可能會問這樣的問題：我要檢測某個場景下的問題，準(zhǔn)確率只有80%，能不能使用?

　　其實，我們可以換一種角度思考，它不是丟掉了20%，是檢測出了80%。還以剛才的糞車偷排為例，如果這套系統(tǒng)上線，準(zhǔn)確率只有80%，但卻能把八成的糞車偷排檢測出來，實際上已經(jīng)很大推動了行業(yè)的變化?？赡艽蟊姷挠^點還在于說依然有兩臺車沒有被檢測出來，但這就是隨著時間的推進，有了這樣的一個包容過程，才能夠真正起到迭代的價值，就好像那匹四蹄騰空的馬。

　　第二，我們要解決長尾行業(yè)應(yīng)用的實現(xiàn)。 我們不能再只聚焦在頭部的應(yīng)用中，人工智能不能只為一個亮點、解決一個核心的問題，真正要做到效率的提升，是需要我們把大量的細(xì)節(jié)問題給解決，魔鬼在細(xì)節(jié)中。

　　第三，我們要的是一片森林。 我們需要各種各樣的生物，需要開放創(chuàng)新，這也是我們邁出的第一步，我們開源了這樣的算法框架，未來會引入更多的生態(tài)系統(tǒng)來共同完成。

　　但是，真正能帶來創(chuàng)新的一個核心根本，我認(rèn)為是對人工智能認(rèn)知的提升 。為什么會容錯?為什么知道怎么去影響長尾，為什么能夠產(chǎn)生生態(tài)，這還是一個認(rèn)知的問題。

　　1885年當(dāng)福特造出第一臺汽車時，很多人嘲笑是個怪物，因為它只能跑15公里每小時，還沒有馬快。這樣一臺造價又貴，跑的還比馬慢的東西，誰會要?如果當(dāng)時就停止發(fā)展，我們今天也不會有跑在汽車上的時代。

　　所以，對于這些事情的認(rèn)知，大家不能當(dāng)成是洪水猛獸。蒸汽機剛出來的時候，很多人都認(rèn)為它是一個Killing machine;交流電誕生，愛迪生用交流電電擊小動物宣傳交流電的危險;對于這些事情，我相信大家都會覺得當(dāng)時如果就停在那里了，就不會有我們這個時代。

　　在幾天前的世界人工智能大會主論壇上，張文宏醫(yī)生不是搞人工智能的，但他也指出未來人工智能在醫(yī)學(xué)當(dāng)中的發(fā)展方向——怎么樣打破數(shù)據(jù)孤島，由數(shù)據(jù)來做決策。

　　現(xiàn)在，普羅大眾，就已經(jīng)有這樣對人工智能的認(rèn)識，各個行業(yè)里都能夠知道怎樣去用人工智能改造了。

　　有一天，我打車堵在路上，滴滴的司機就和我說：其實有很好的辦法管理交通，你想每天上下班開私家車的人，上下班的路徑是一致的，所以只要把那些私家車和他們每天的路徑識別出來，就知道每天直行的車有多少，拐彎的車有多少了。之后根據(jù)這些信息控制一下紅綠燈，讓直行車多的先走，是不是整個交通就會變得很好?我聽了之后非常詫異，這是一個滴滴司機給出的人工智能怎樣去解決交通問題的一個思路。

　　所以技術(shù)要真正的進行變革，要進行創(chuàng)新策源，在于技術(shù)怎樣去提升普羅大眾的認(rèn)知 ，只要普羅大眾能夠理解到這個技術(shù)是怎么樣改變行業(yè)的，那么它就一定能深入到各行各業(yè)當(dāng)中去。

　　這是《昭陵六駿圖》的馬，每一匹奔馬都是以一種飛馳的狀態(tài)在天上騰空，它推動了我們的寫實畫風(fēng)。世界各國各式各樣的奔馬也都是以這樣有意思的模式來推進，這些畫風(fēng)的傳承才帶來了今天寫實的繪畫藝術(shù)。

　　最后我們用MMEditing算法把這個馬的馬腿變得正常了，我也希望我們這個開源的方式，開源的生態(tài)，能夠促進行業(yè)的整體發(fā)展。