百度開源進行時
“Human knowledge belongs to the world!” 在電影《反托拉斯運動》中,主人公在片尾大聲喊出的話,多年以后成了開源世界的“終極理想”。AI 接棒移動互聯(lián)網席卷著滔天巨浪而來,開源也從起初少數(shù)人關注的活動邊緣變成了硝煙彌漫的中心戰(zhàn)場,開源變成了互聯(lián)網支撐技術的同時也不斷滲透到我們的生活,開放的開源技術讓價值回歸到開發(fā)者個人,也為我們日常使用的電腦、移動設備,及其所連接的網絡提供了源源不斷的“動力”。
近些年來科技巨頭蜂擁而至,國外 Facebook、谷歌、蘋果、微軟為升級迭代 AI 開源框架各顯神通,開源了其 AI 軟件和服務器硬件設計。國內的開源項目亦毫不示弱,BAT 在前,華為、頭條、美團緊隨其后,無論在技術的積累、資本的投入,還是在人才的聚合上都強勢發(fā)力,助推“開源”進入新的階段。
在開源的江湖,珠玉在前,后繼四起,但百度從未缺席。InfoQ 通過分析 GitHub 上的開源項目數(shù)據集 GitHubArchive,得出 2020 和 2019 年度全球深度學習框架排名榜單(見下文),其中,百度飛槳 PaddlePaddle 均力壓谷歌 TensorFlow,緊隨 Facebook PyTorch 之后,其搶眼的數(shù)據表現(xiàn)意味著在開發(fā)者積極貢獻代碼和項目、社區(qū)活躍、代碼迭代速度上一直保持著強勁的競爭力,已經成為了國內第一、世界第二的深度學習開源框架,將國內開源的“終極理想”往前又推進了一步。
1.百度強力開源 ,機遇和挑戰(zhàn)并存
從 2009 年大規(guī)模定制 Hadoop 開始到 2013 年率先開源 ECharts ,百度的開源之路從未停止過。2017 年更是百度開源的突破之年,從深度學習平臺飛槳 PaddlePaddle,到 Apollo 自動駕駛,百度落實了多項重大開源技術,也將 AI 開源提升到前所未有的戰(zhàn)略高度。
除此之外,百度還參與了國內外頂級開源基金會和組織,成為了 Apache 基金會、Linux 基金會以及云原生計算基金會的金牌會員,以及開放原子基金會的理事單位。百度旗下 ECharts、Doris、BRPC、Teaclave 等多個項目已經成為 Apache 基金會孵化項目,Baetyl、IME、EDL 等項目也捐贈給了 Linux 基金會進行孵化。今年 6 月 24 日,BFE 開源項目被云原生計算基金會正式接納為 Sandbox Project。百度完全自主研發(fā)的超級鏈技術將依托于開源基金會以全新的組織形態(tài)進行運作。此項目將作為開放原子基金會區(qū)塊鏈領域首個捐贈項目進行孵化,并在全球開展開源技術和生態(tài)的運營及推廣活動。
2019 年,百度戰(zhàn)略投資了開源中國,作為中國最大的開源技術社區(qū),開源中國旗下運營的 Gitee 代碼托管平臺是全球僅次于 GitHub 的代碼托管平臺,每日約增加 5000 名開發(fā)者、200 家企業(yè)客戶、1.7 萬代碼倉庫,已經具備了在國際市場與 GitHub 全面抗衡的基礎。
引入開源,加快技術迭代和演進一直是百度秉承的“理念”,這里面不僅有百度的基因和能力因素,更重要是表達一種開放的態(tài)度。百度從布局 AI 開始,就一直堅持開放的戰(zhàn)略,在研發(fā) AI 技術的同時,通過百度大腦 AI 開放平臺、飛槳產業(yè)級深度學習開源開放平臺、Apollo 自動駕駛開放平臺、小度開放平臺以及各類開源框架和數(shù)據集等,向廣大開發(fā)者和企業(yè)用戶開放 AI 能力,提供技術和解決方案,賦能各行各業(yè)轉型升級。
再者,開源某種程度上能有效減少閉源壟斷市場的局面出現(xiàn),百度深深了解在技術領域一枝獨秀不是春,沒有對外開源,很多技術和產品不會拓展如此之快,在別人的肩膀上做創(chuàng)新,有助于構建 AI 技術生態(tài) 。在建立生態(tài)和開拓市場基礎上的開源會讓市場更加欣欣向榮,獲得更長足的發(fā)展。
2.蕩起“飛槳”,AI 賦能量子計算
如果 GitHub 開發(fā)者想要對開源項目貢獻代碼,需發(fā)起 pull request 把自己修改的代碼合入分支主,如果 pull request 被合入,則表示代碼被采用,成功完成一次開源貢獻。因此,pull request 的發(fā)起(open)數(shù)量是評估開發(fā)者積極貢獻代碼、項目和社區(qū)活躍最直觀的指標,合入(merged)pull request 是評估開源項目的代碼迭代速度的一個極佳的權威性指標。
InfoQ 通過分析 GitHub 開源項目數(shù)據集 GitHubArchive 之中關于 pull request 的發(fā)起和合入數(shù)據,獲得了 2020 和 2019 年度全球深度學習框架活躍度排名榜單,其中,百度飛槳的 open 數(shù)據由去年的 2759 次躍升到今年同期的 3391 次,比現(xiàn)階段暫列第三的谷歌 Tensorflow 高出 1000 多次。飛槳的 merged 數(shù)據由 1924 次躍升為 2428 次,力壓暫居第一 Pytorch 的 238 次,比第三名 Tensorflow 高出近 1000 次,這也意味著“動靜統(tǒng)一、軟硬融合”的飛槳一直在致力于讓深度學習技術的創(chuàng)新與應用更簡單,其提供的 AI 底層技術也深受開發(fā)者歡迎。
2020/2019 年度全球開源深度學習框架活躍度排名榜單(InfoQ 提供)
百度飛槳于 2016 年 9 月正式宣布開源,這使得百度成為繼谷歌、Facebook、IBM 后第四家將 AI 技術開源的公司。作為國內 AI 開源的扛把子,百度飛槳集深度學習核心訓練和推理框架、基礎模型庫、端到端開發(fā)套件和豐富的工具組件于一體,并根據本土化特點將開源框架與應用層面做了更好的結合,旨在打造自主可控的人工智能操作系統(tǒng),持續(xù)賦能廣大開發(fā)者,這意味著個人開發(fā)者也可以利用飛槳提供的平臺部署自己的深度學習模型。
基于其簡潔、靈活、快速的特性,百度飛槳推動了各個行業(yè)的深度學習應用,在液晶顯示屏的檢測、機器人安全巡檢、遙感監(jiān)測等領域發(fā)揮著不可代替的作用。拿液晶顯示屏檢測來說,精測電子應用飛槳開源深度學習框架開發(fā)后,基于其分類、檢測、分割等多種功能模塊,對具有缺陷的液晶屏幕檢測的精度上有很大提升。
百度飛槳全景圖
2020 年 9 月,百度飛槳深度學習平臺入選了 2020 服貿會 “科技創(chuàng)新服務示范案例”, 數(shù)據顯示,飛槳當前支持 140+ 個產業(yè)及開源算法,累計開發(fā)者 230 萬,服務企業(yè) 9 萬家,基于飛槳開源深度學習平臺產生了 31 萬個模型。在城市、工業(yè)、電力、通信等很多關乎國計民生的領域都有飛槳在發(fā)揮作用。
而這樣可喜的數(shù)據讓大家似乎忘了飛槳在 AI 開源領域只是個才出現(xiàn)四年的“新物種”。AI 領域的發(fā)展非常迅猛,基于這些 AI 平臺上的算法模型迭代加速和業(yè)務需求不斷改變,AI 平臺也在不斷進化,為了保證現(xiàn)有深度學習框架更快、更好用,飛槳在 2020 年也迎來一系列重要升級,比如在核心框架上實現(xiàn)了動靜統(tǒng)一,全面支持動態(tài)圖調試,自動轉靜態(tài)圖訓練和部署的理想開發(fā)模式。
今年五月,百度發(fā)布了 Paddle Quantum,這是建立在百度飛槳深度學習平臺之上的開放源代碼的機器學習工具包,它包括量子開發(fā)工具集,量子化學庫以及一系列優(yōu)化工具,可以幫助領域內的科研人員以及開發(fā)者在量子計算應用程序中訓練和開發(fā) AI,也為相關領域的愛好者開發(fā)量子人工智能的應用提供了強有力的支撐。
百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜表示,在全新產品架構里,開源深度學習平臺依然是最重要的一部分,他們依舊會持續(xù)通過開源的方式,圍繞飛槳的核心框架、基礎模型庫、端到端的開發(fā)套件和工具組件打造飛槳最核心的能力,永久開源,為開發(fā)者提供最強有力的開發(fā)基礎。
3.無人駕駛加速落地,Apollo 引領“萬物智能”
百度的無人駕駛技術究竟發(fā)展到哪一步了?這一定是很多人的疑問。
9 月 16 日,在 2020 百度世界大會上,百度展示了其全自動駕駛技術,人工智能系統(tǒng)可以在車內無需安全駕駛員的情況下獨立駕駛,值得一提的是,Apollo 發(fā)布了全新的第五代自動駕駛套件,首批符合全自動運營要求的前裝量產車輛也將很快推出。百度公司副總裁、智能駕駛事業(yè)群(IDG)總經理李震宇表示:“隨著 Apollo 新一代汽車的問世,成本將減半,能力將提升 10 倍?!?/span>
今年 4 月,百度 Apollo 正式對外發(fā)布國內外第一個車路行融合的全棧式智能交通解決方案“ACE 交通引擎”,就在前幾日,百度 Apollo 宣布在北京正式開放自動駕駛出租車服務 Apollo Go,北京用戶可通過百度地圖及 Apollo 官網預約體驗 Robotaxi,經過多年的探索和測試,Robotaxi 無人駕駛出租車終于真正面向公眾試運營。
百度在北京開放的自動駕駛載人測試區(qū)域總長度約 700 公里,覆蓋亦莊、海淀、順義的生活圈和商業(yè)圈等近百個站點。位于北京亦莊經濟開發(fā)區(qū)的 Apollo Park 是全球最大的自動駕駛和車路協(xié)同應用測試基地,也是此次北京開放 Robotaxi 的打車站點之一。
在 Robotaxi 進入全國多城開始試運營,百度自動駕駛商業(yè)化進程的不斷推進的背后,我們很難忽略其背后的 Apollo 平臺。2017 年 11 月,百度發(fā)布了全球首個自動駕駛開源項目——Apollo 自動駕駛開放平臺,其自動駕駛軟件可供任何人免費下載及修改使用。Apollo 作為一套復雜的自動駕駛系統(tǒng),具體包含以下重要的幾項組件:感知、仿真、高精度地圖與定位、End-To-End、決策規(guī)劃、智能控制、數(shù)據開放平臺、參考硬件、MAP Engine、安全。
像阿波羅登月計劃給我們帶來的無盡想象一樣,百度發(fā)布的 Apollo 項目也為人類描述了一個美好的藍圖,在向人工智能的宇宙前進的路上,可以解放人們的雙手,讓每個人開車時也能自由地仰望星空。
百度稱"要向汽車行業(yè)及自動駕駛領域的合作伙伴提供一個開放、完整、安全的軟件平臺,幫助他們結合車輛和硬件系統(tǒng),快速搭建一套屬于自己的完整的自動駕駛系統(tǒng)。數(shù)據也驗證了百度 Apollo 在這一目標上的不懈努力,截至目前,百度 Apollo 平臺已經匯聚了全球 177 家生態(tài)合作伙伴;在全球,有 97 個國家超過 3.6 萬名開發(fā)者使用 Apollo 開源代碼,開源代碼數(shù)量超過 56 萬,Apollo 自動駕駛平臺已成為全球最強大、最開放、最活躍的自動駕駛平臺。
目前已經有 10 萬人嘗試過無人車,而這個數(shù)量也在一路攀升,無人車終將駛入更多城市,駛入普通百姓的生活。百度在自動駕駛、智能交通和智能車聯(lián)上將還會有哪些創(chuàng)新,Apollo 是否迎來了它的春天?是否能通過共享其無人駕駛技術的平臺成為汽車界的安卓呢?我們拭目以待。
4.看見看不見的數(shù)據,ECharts 詮釋數(shù)據之美
除了飛槳和 Apollo ,大家對 ECharts 一定不陌生,疫情期間從紅到白、可視化的疫情地圖背后就有 ECharts 的身影。
從 2013 年 1.0 版本發(fā)布至今,整整陪伴用戶 7 年的 ECharts 一直在小步快跑,在交互、多維度數(shù)據分析、數(shù)據自由刷選、多圖表聯(lián)動、渲染等方面都展現(xiàn)了不凡的創(chuàng)新能力。
作為當前最流行、最強大的可視化庫之一,它提供了直觀,生動,可交互,可個性化定制的數(shù)據可視化圖表,包括常規(guī)的折線圖、柱狀圖、散點圖、餅圖、K 線圖,用于統(tǒng)計的盒形圖,用于地理數(shù)據可視化的地圖、熱力圖、線圖,用于關系數(shù)據可視化的關系圖、treemap、旭日圖,多維數(shù)據可視化的平行坐標,還有用于 BI 的漏斗圖,儀表盤。它創(chuàng)新的拖拽重計算、數(shù)據視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數(shù)據進行挖掘、整合的能力。
并且它可以流暢地運行在 PC 和移動設備上,兼容當前絕大部分瀏覽器,提供直觀、交互豐富、可實現(xiàn)高度個性定制化的數(shù)據可視化圖表,也可將其封裝為任何 MVVM 框架的組件方便使用。
帶著顛覆性的功能設計和技術特征的 ECharts 出現(xiàn)后迅速成為國內數(shù)據可視化領域的后起之秀,已經成為國內優(yōu)秀的數(shù)據可視化工具平臺。目前,Apache ECharts (incubating) 在 Github 中的 star 數(shù)已經超過 41.4k,每周 npm 下載量超過 22 萬,這樣的成績離不開核心團隊、開源社區(qū)、項目貢獻者及無數(shù)用戶的共同努力。
Apache ECharts (incubating) 的第 100 個 Contributor 蓮梓在使用 Apache ECharts (incubating) 的過程中,總結了幾條經驗:
第一,先針對該問題對應的概念,到文檔中搜索關鍵字,然后其中提到的方法可以在代碼中再定位一下;
第二,該問題在其他圖表中有沒有類似的功能,找到另一個圖表中的實現(xiàn)方式,遷移過來;
第三,根據現(xiàn)象判斷是 model 層的問題,還是 view 層的問題。例如超出畫布范圍的圖像渲染很可能是視圖層的問題;
第四,縮小一下要定位的范圍。
“優(yōu)秀的開源項目只有擁有強大的社區(qū)才能發(fā)展得長遠,同理,如果想在自己感興趣的方向走得更遠,要擁有一群志同道合的伙伴。成為 Apache ECharts (incubating) 社區(qū)中的一員就是在數(shù)據可視化方向上探索的一個開始?!鄙忚髡f。
5.眾志成城,開源社區(qū)帶來無限可能
一款深度學習框架產品要被廣大開發(fā)者認可,在具有技術競爭力的基礎上,將內部的核心技術開源是第一步,還要長期持續(xù)緊貼用戶需求,在開源社區(qū)的不斷反饋中迭代平臺架構,只有協(xié)調多方參與者與平臺不斷打磨,圍繞框架建立自己的生態(tài),才會提高開發(fā)者在平臺的留存與粘度,為開發(fā)者們的學習和成長提供更多的可能。
在開源中,代碼并不是最重要的元素,最關鍵的是人,從關注開源,到使用開源,再到參與開源共享,越來越多的開發(fā)者通過開源技術來構建業(yè)務,構成這個鏈條的每一位開發(fā)者都是星星之火,而這些星星之火的聚集就形成了開源領域最重要的一環(huán)——社群。
在這群有共同興趣聚集的技術人的眼中,“開源”兩字幾乎變成了一種“信仰”,它預示著一種自由,是一種秩序,更是一種人與人之間通過代碼的聯(lián)結。
作為深度學習平臺飛槳社群的一員,小鵬(化名)形容自己對飛槳的感覺是“一見鐘情”,除了免費 GPU 資源和豐富的 API 接口,最吸引他的是社區(qū)氛圍。在飛槳,他認識了很多有趣的朋友,并且參與了有意義的項目,這些經歷讓他如獲至寶。他曾通過飛槳框架搭建了一個深度學習模型,通過攝像頭捕捉和識別手語,再轉化成語音,從而實現(xiàn)和聾啞人交流的目標。
責任編輯:-