IDEA人物 | 張磊博士,打造能“看”懂、“想”透、“做”好的智能體
張磊博士為IEEE Fellow,現任IDEA數字經濟研究院計算機視覺與機器人方向講席科學家。他曾在微軟亞洲研究院、微軟總部研究院及計算機視覺相關產品部門任首席研究員,并長期帶領研究組從事計算機視覺方向的基礎研究,及其在大規模圖像分析、物體檢測、視覺語言多模態理解方面的應用,研究成果被廣泛用于微軟必應搜索及認知服務云計算平臺。他在計算機視覺等相關領域發表論文150多篇,并擁有60多項美國授權專利,是計算機視覺領域的世界級專家。
視覺識別算法 百億數據處理
張磊博士曾在微軟工作了20年,主導和參與過大量研究項目。一直以來,張磊博士對大規模的視覺識別問題有著濃厚的興趣和獨特的思考,尤其是對如何利用海量的數據,從數據中挖掘隱含的視覺模式和結構的問題。
2013年,張磊博士發表重復圖像聚類搜索算法解決論文《Duplicate Discovery on 2 Billion Internet Images》。這個論文中提出的算法在學術界和工業界都極具前沿性,對搜索引擎有巨大影響。
眾所周知,傳統的聚類算法復雜度基本是O(n2),在20億量級的數據上采用傳統方法進行聚類按當時的算力是無法做到的。論文中提出分而治之的策略:基于全圖特征的哈希編碼在數十億圖像中快速找到所有可能的重復圖像聚類,并結合局部特征進行聚類生長和噪聲清除。該策略的提出意味著在一個有2000個CPU的集群環境中,整個聚類過程可以在13個小時內完成。
論文中所提出的算法經過張磊博士和產品部門同事進一步的改進后,被用于必應圖像搜索引擎中。該算法成為了整個圖像索引底層數據處理的基礎算法,每天都被用來處理上百億的圖像數據,進而改進圖像搜索的質量。
以研究的力量 為社會創造美好
2020年,正是視覺領域開始關注如何通過大數據開展視覺表示學習的階段,張磊博士在微軟帶領研究團隊進行佛羅倫薩項目(Project Florence),即針對大數據條件下的視覺表示學習進行深入研究。該項目最終取得多項重要進展,包括幾項在模型結構方面改進的研究工作,以及對微軟視覺產品的直接貢獻。
其中,發表在ECCV 2020上的視覺語言表示學習方面的研究工作《Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks》,在六項視覺語言任務上取得研究領域最好的結果,并且促進了后續發表在AAAI 2020上的研究工作《VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning》,在nocaps挑戰賽上取得首次超過人類性能的結果。
這些研究工作在研究團隊和工程團隊的共同努力下,短短幾個月就轉化到Azure AI產品中。后續進一步用到Seeing AI中,供盲人或者視障人士免費使用,為社會帶來更多積極的影響與美好的改變。
視覺與機器人 “看”懂 “想”透 “做”好
“視覺和機器人結合會產生更多研究問題,一個智能體能夠‘看’懂、‘想’透、‘做’好,需要研究很多基礎問題,任何突破都會對智能制造業帶來巨大的影響。”
——張磊 博士
2021年6月,張磊博士加入IDEA,并任計算機視覺與機器人研究中心的講席科學家及平臺負責人。眾所周知,張磊博士是計算機視覺領域的世界級專家。外人鮮少知道,在張磊博士進行博士深造之前,是國內最早一批參與室內移動機器人的研究人員。
獨特的研發經歷讓張磊博士選擇在計算機視覺與機器人專業領域進一步深耕,盡管現在機器人的技術有了天翻地覆的變化,但是張磊博士相信研究的本質是相似的。張磊博士在談及對于機器視覺與機器人研究中心的看法與解讀之時,發表了獨特的見解,為了保留更原始的表達,以下將展示張磊老師的原話闡述。
以下為張磊博士的原話闡述:
計算機視覺是人工智能領域的基礎問題,主要解決的是感知過程中“看”的問題,但也有很多需要“想”的問題。比如在圖像中看到一只鹿,現在的算法基本是基于物體整個區域的特征“背”下來的識別,要想“解釋”為什么這是一只鹿,哪個地方是頭哪個地方是腳,是需要額外的數據和標注的。如果不能對結果給出很好的解釋,就會給識別的魯棒性帶來很多問題,在對抗攻擊樣本面前真的會犯“指鹿為馬”的錯誤。這些問題都是值得在視覺方向上進行深入研究的好問題。
另外,智能還包含“做”的問題,也就是機器人和外部環境進行物理交互的問題。視覺和機器人結合起來會產生更多有趣的研究問題,要一個智能體能夠“看”懂、“想”透、“做”好,需要研究很多基礎問題,任何問題的突破都會對產業尤其是智能制造業帶來巨大的影響。
近幾年來,不論是自然語言處理(NLP)領域還是計算機視覺領域都越來越關注基于大數據的表示學習問題,我們不斷在論文中和新聞里看到不斷刷新記錄的模型規模和對算力的需求。同時,大模型也不斷展示出超出以往性能的結果。另一方面,不管模型有多大,還是在很多地方會犯低級的錯誤。
這個趨勢引發學術界和工業界很多的討論,也促使我深入思考這個現象背后更本質的問題。通過深入地回顧機器學習背后的統計學習基礎,我認為現在這個大數據大模型的方向是值得肯定的,因為它背后是有堅實的數學基礎的,這個數學基礎也就是泛函空間中的大數定律,這個定律告訴我們的是滿足一定條件下,數據量趨于無窮大時,我們現在所用的函數擬合方法的收斂性。但是我們在實際問題中用到的數據量遠遠達不到無窮大的條件,也就是說,我們現在所謂的大數據模型訓練,在統計學習的意義下,還只能算是小數據。要彌補這個問題,我們必須要更深入的研究表示學習的問題,研究在大數據學習的框架下如何引入結構和知識來提高機器學習的泛化能力,這將會是自然語言和視覺領域非常好的研究問題。
另外,視覺和機器人結合起來也會帶來不一樣的問題。大部分的視覺問題關心的都是被動視覺,不管是靜止照片還是連續視頻,計算機系統不會去影響物理世界的。但是機器人上有些問題就不太一樣,機器人是可以動的,從一個角度看不清楚是可以移動一下換個角度來看的,甚至機器人的動作會改變當前環境的狀態,這給視覺帶來很多有趣的新問題。
此外,機器人本身也是非常有前景的方向。我們整個社會都在面臨產業結構調整,機器人技術在智能制造業方面有著巨大的發揮空間。我們在這個領域中會重點研究室內環境中的移動機器人和工業環境中的智能機械手臂等技術,為新一代制造業賦能。
智能制造技術 為新一代制造業賦能
“以IDEA為舞臺,借助自己在工業界與研究院多年的研究經驗,深入研究視覺和人工智能中的基礎問題,通過研究創新帶動產業發展,為社會的數字經濟發展做出有益的貢獻。”
——張磊 博士
計算機視覺與機器人研究中心旨在通過基礎研究推動視覺及機器人技術的成熟和普及,探索大數據條件下基于大模型的表示學習問題,同時引入知識和結構來改進深度學習模型的推理和泛化能力,圍繞智能制造業機器人所需的主動視覺和強化學習問題,研究更普適、更魯棒、可解釋的智能技術,從而打造智能制造業為代表的「工業AI」,為新一代制造業賦能。
視覺表示學習 研究方向 1
視覺表示學習,研究大規模多模態數據中的視覺表示問題,以及如何有效地引入知識和結構信息,提高視覺表示的魯棒性和可解釋性。
計算機視覺領域有非常多樣化的問題,比如圖像分類、物體檢測、分割及跟蹤、三維場景理解、視覺語言跨模態理解等。在眾多問題中,表示學習是更為核心的問題,也是近來受到視覺和機器學習領域共同關注的問題。
雖然計算機視覺在過去幾年中取得了顯著的進展,視覺算法還面臨很多挑戰,譬如缺乏可解釋性、易受對抗攻擊等。解決這些問題,我們需要研究如何從大規模的復雜數據(包括文本、圖像和視頻)中學習和分析數據背后隱含的本質規律,并從機器學習的角度對數據的隱含規律進行數學表示方面的研究,研究如何有效地引入知識和結構信息,提高視覺表示的魯棒性和可解釋性,并對視覺領域中的分類、檢測、分割、跟蹤等核心問題帶來更全面的改進,在很多具體場景中產生實際的應用價值。
超大規模機器學習平臺 研究方向 2
超大規模機器學習平臺,研究系統級別的機器學習算法優化,分布式環境下的數據并行、模型并行、數值計算分析、優化算法等關鍵問題,有效提高大規模模型訓練效率。
視覺領域中的基礎問題,研究大規模圖像分類、物體檢測、分割及跟蹤、三維場景理解、視覺語言跨模態理解、零樣本及小樣本物體識別等問題,以及在應用中的模型優化和遷移學習。
大數據大模型正在視覺領域中成為越來越重要的研究方向,這其實是我們在不斷地驗證統計學習中的大數定律。
研究領域一定會朝著兩個方向去走,一個是我們前面講到的引入結構和知識使得我們能夠更加有效地利用數據,另一個是不斷增加數據和模型規模來探測算法性能的邊界,這兩個方向往往也需要交織著同時往前走。
正如在NLP領域一樣,大模型訓練給機器學習帶來很多系統級的問題,比如如何用盡可能少的GPU訓練出盡可能大的模型。因此,我們會針對視覺中的問題研究系統級別的機器學習算法優化,通過改進多機多卡環境下的數據并行、模型并行、數值計算分析、優化算法等關鍵問題,在上千卡的環境下實現大規模高效率的模型訓練,并通過開源模式為研究領域提供最新技術。
新一代智能機器人技術 研究方向 3
新一代智能機器人技術,研究制造業環境中機器人手臂和移動機器人的主動視覺、強化學習、智能控制等問題,為工業人工智能賦能。
中國正在進入工業自動化以及制造業現代化的重要階段,亟需更普適、更魯棒的智能技術。我們將會依托深圳在科技和制造業方面國際范圍獨有的優勢,結合計算機視覺研究智能機器人方面的關鍵技術,研究制造業環境中機器人手臂和移動機器人所需的主動視覺、強化學習、智能控制等問題,通過核心技術的研究和突破培育一系列世界領先的智能制造機器人技術,并結合深圳的制造業打造新一代的智能制造機器人產品。
攜手同行共進 推動人類AI技術發展
作為計算機視覺與機器人研究中心的講席科學家,張磊博士將帶領團隊,在計算機視覺領域與智能制作機器人領域進行前沿探索,突破培育一系列世界領先的智能技術,最終實現“為全社會從包括AI技術在內的新一代智能技術中普遍受益”的任務及愿景。
未來,張磊博士將與IDEA及科研同仁在不斷交流磨合的同時,亦攜手向同一個目標共進。為推動人類AI技術發展,立足社會需求研發顛覆式創新技術回饋社會,讓更多的人從數字經濟發展中獲益而努力,這是IDEA的使命,也是這里每位科研人員的責任與追求。
除了張磊博士外,IDEA目前已聚集一批包括前哈佛教授、前微軟技術高管在內的國際一流技術專家,共同致力于在數字經濟核心領域產生國際頂尖的研發成果并培育一批國際頂級的高科技企業,帶動深圳和大灣區萬億級人工智能與數字經濟產業發展。