百度開源進行時
“Human knowledge belongs to the world!” 在電影《反托拉斯運動》中,主人公在片尾大聲喊出的話,多年以后成了開源世界的“終極理想”。AI 接棒移動互聯網席卷著滔天巨浪而來,開源也從起初少數人關注的活動邊緣變成了硝煙彌漫的中心戰場,開源變成了互聯網支撐技術的同時也不斷滲透到我們的生活,開放的開源技術讓價值回歸到開發者個人,也為我們日常使用的電腦、移動設備,及其所連接的網絡提供了源源不斷的“動力”。
近些年來科技巨頭蜂擁而至,國外 Facebook、谷歌、蘋果、微軟為升級迭代 AI 開源框架各顯神通,開源了其 AI 軟件和服務器硬件設計。國內的開源項目亦毫不示弱,BAT 在前,華為、頭條、美團緊隨其后,無論在技術的積累、資本的投入,還是在人才的聚合上都強勢發力,助推“開源”進入新的階段。
在開源的江湖,珠玉在前,后繼四起,但百度從未缺席。InfoQ 通過分析 GitHub 上的開源項目數據集 GitHubArchive,得出 2020 和 2019 年度全球深度學習框架排名榜單(見下文),其中,百度飛槳 PaddlePaddle 均力壓谷歌 TensorFlow,緊隨 Facebook PyTorch 之后,其搶眼的數據表現意味著在開發者積極貢獻代碼和項目、社區活躍、代碼迭代速度上一直保持著強勁的競爭力,已經成為了國內第一、世界第二的深度學習開源框架,將國內開源的“終極理想”往前又推進了一步。
1.百度強力開源 ,機遇和挑戰并存
從 2009 年大規模定制 Hadoop 開始到 2013 年率先開源 ECharts ,百度的開源之路從未停止過。2017 年更是百度開源的突破之年,從深度學習平臺飛槳 PaddlePaddle,到 Apollo 自動駕駛,百度落實了多項重大開源技術,也將 AI 開源提升到前所未有的戰略高度。
除此之外,百度還參與了國內外頂級開源基金會和組織,成為了 Apache 基金會、Linux 基金會以及云原生計算基金會的金牌會員,以及開放原子基金會的理事單位。百度旗下 ECharts、Doris、BRPC、Teaclave 等多個項目已經成為 Apache 基金會孵化項目,Baetyl、IME、EDL 等項目也捐贈給了 Linux 基金會進行孵化。今年 6 月 24 日,BFE 開源項目被云原生計算基金會正式接納為 Sandbox Project。百度完全自主研發的超級鏈技術將依托于開源基金會以全新的組織形態進行運作。此項目將作為開放原子基金會區塊鏈領域首個捐贈項目進行孵化,并在全球開展開源技術和生態的運營及推廣活動。
2019 年,百度戰略投資了開源中國,作為中國最大的開源技術社區,開源中國旗下運營的 Gitee 代碼托管平臺是全球僅次于 GitHub 的代碼托管平臺,每日約增加 5000 名開發者、200 家企業客戶、1.7 萬代碼倉庫,已經具備了在國際市場與 GitHub 全面抗衡的基礎。
引入開源,加快技術迭代和演進一直是百度秉承的“理念”,這里面不僅有百度的基因和能力因素,更重要是表達一種開放的態度。百度從布局 AI 開始,就一直堅持開放的戰略,在研發 AI 技術的同時,通過百度大腦 AI 開放平臺、飛槳產業級深度學習開源開放平臺、Apollo 自動駕駛開放平臺、小度開放平臺以及各類開源框架和數據集等,向廣大開發者和企業用戶開放 AI 能力,提供技術和解決方案,賦能各行各業轉型升級。
再者,開源某種程度上能有效減少閉源壟斷市場的局面出現,百度深深了解在技術領域一枝獨秀不是春,沒有對外開源,很多技術和產品不會拓展如此之快,在別人的肩膀上做創新,有助于構建 AI 技術生態 。在建立生態和開拓市場基礎上的開源會讓市場更加欣欣向榮,獲得更長足的發展。
2.蕩起“飛槳”,AI 賦能量子計算
如果 GitHub 開發者想要對開源項目貢獻代碼,需發起 pull request 把自己修改的代碼合入分支主,如果 pull request 被合入,則表示代碼被采用,成功完成一次開源貢獻。因此,pull request 的發起(open)數量是評估開發者積極貢獻代碼、項目和社區活躍最直觀的指標,合入(merged)pull request 是評估開源項目的代碼迭代速度的一個極佳的權威性指標。
InfoQ 通過分析 GitHub 開源項目數據集 GitHubArchive 之中關于 pull request 的發起和合入數據,獲得了 2020 和 2019 年度全球深度學習框架活躍度排名榜單,其中,百度飛槳的 open 數據由去年的 2759 次躍升到今年同期的 3391 次,比現階段暫列第三的谷歌 Tensorflow 高出 1000 多次。飛槳的 merged 數據由 1924 次躍升為 2428 次,力壓暫居第一 Pytorch 的 238 次,比第三名 Tensorflow 高出近 1000 次,這也意味著“動靜統一、軟硬融合”的飛槳一直在致力于讓深度學習技術的創新與應用更簡單,其提供的 AI 底層技術也深受開發者歡迎。
2020/2019 年度全球開源深度學習框架活躍度排名榜單(InfoQ 提供)
百度飛槳于 2016 年 9 月正式宣布開源,這使得百度成為繼谷歌、Facebook、IBM 后第四家將 AI 技術開源的公司。作為國內 AI 開源的扛把子,百度飛槳集深度學習核心訓練和推理框架、基礎模型庫、端到端開發套件和豐富的工具組件于一體,并根據本土化特點將開源框架與應用層面做了更好的結合,旨在打造自主可控的人工智能操作系統,持續賦能廣大開發者,這意味著個人開發者也可以利用飛槳提供的平臺部署自己的深度學習模型。
基于其簡潔、靈活、快速的特性,百度飛槳推動了各個行業的深度學習應用,在液晶顯示屏的檢測、機器人安全巡檢、遙感監測等領域發揮著不可代替的作用。拿液晶顯示屏檢測來說,精測電子應用飛槳開源深度學習框架開發后,基于其分類、檢測、分割等多種功能模塊,對具有缺陷的液晶屏幕檢測的精度上有很大提升。
百度飛槳全景圖
2020 年 9 月,百度飛槳深度學習平臺入選了 2020 服貿會 “科技創新服務示范案例”, 數據顯示,飛槳當前支持 140+ 個產業及開源算法,累計開發者 230 萬,服務企業 9 萬家,基于飛槳開源深度學習平臺產生了 31 萬個模型。在城市、工業、電力、通信等很多關乎國計民生的領域都有飛槳在發揮作用。
而這樣可喜的數據讓大家似乎忘了飛槳在 AI 開源領域只是個才出現四年的“新物種”。AI 領域的發展非常迅猛,基于這些 AI 平臺上的算法模型迭代加速和業務需求不斷改變,AI 平臺也在不斷進化,為了保證現有深度學習框架更快、更好用,飛槳在 2020 年也迎來一系列重要升級,比如在核心框架上實現了動靜統一,全面支持動態圖調試,自動轉靜態圖訓練和部署的理想開發模式。
今年五月,百度發布了 Paddle Quantum,這是建立在百度飛槳深度學習平臺之上的開放源代碼的機器學習工具包,它包括量子開發工具集,量子化學庫以及一系列優化工具,可以幫助領域內的科研人員以及開發者在量子計算應用程序中訓練和開發 AI,也為相關領域的愛好者開發量子人工智能的應用提供了強有力的支撐。
百度集團副總裁、深度學習技術及應用國家工程實驗室副主任吳甜表示,在全新產品架構里,開源深度學習平臺依然是最重要的一部分,他們依舊會持續通過開源的方式,圍繞飛槳的核心框架、基礎模型庫、端到端的開發套件和工具組件打造飛槳最核心的能力,永久開源,為開發者提供最強有力的開發基礎。
3.無人駕駛加速落地,Apollo 引領“萬物智能”
百度的無人駕駛技術究竟發展到哪一步了?這一定是很多人的疑問。
9 月 16 日,在 2020 百度世界大會上,百度展示了其全自動駕駛技術,人工智能系統可以在車內無需安全駕駛員的情況下獨立駕駛,值得一提的是,Apollo 發布了全新的第五代自動駕駛套件,首批符合全自動運營要求的前裝量產車輛也將很快推出。百度公司副總裁、智能駕駛事業群(IDG)總經理李震宇表示:“隨著 Apollo 新一代汽車的問世,成本將減半,能力將提升 10 倍。”
今年 4 月,百度 Apollo 正式對外發布國內外第一個車路行融合的全棧式智能交通解決方案“ACE 交通引擎”,就在前幾日,百度 Apollo 宣布在北京正式開放自動駕駛出租車服務 Apollo Go,北京用戶可通過百度地圖及 Apollo 官網預約體驗 Robotaxi,經過多年的探索和測試,Robotaxi 無人駕駛出租車終于真正面向公眾試運營。
百度在北京開放的自動駕駛載人測試區域總長度約 700 公里,覆蓋亦莊、海淀、順義的生活圈和商業圈等近百個站點。位于北京亦莊經濟開發區的 Apollo Park 是全球最大的自動駕駛和車路協同應用測試基地,也是此次北京開放 Robotaxi 的打車站點之一。
在 Robotaxi 進入全國多城開始試運營,百度自動駕駛商業化進程的不斷推進的背后,我們很難忽略其背后的 Apollo 平臺。2017 年 11 月,百度發布了全球首個自動駕駛開源項目——Apollo 自動駕駛開放平臺,其自動駕駛軟件可供任何人免費下載及修改使用。Apollo 作為一套復雜的自動駕駛系統,具體包含以下重要的幾項組件:感知、仿真、高精度地圖與定位、End-To-End、決策規劃、智能控制、數據開放平臺、參考硬件、MAP Engine、安全。
像阿波羅登月計劃給我們帶來的無盡想象一樣,百度發布的 Apollo 項目也為人類描述了一個美好的藍圖,在向人工智能的宇宙前進的路上,可以解放人們的雙手,讓每個人開車時也能自由地仰望星空。
百度稱"要向汽車行業及自動駕駛領域的合作伙伴提供一個開放、完整、安全的軟件平臺,幫助他們結合車輛和硬件系統,快速搭建一套屬于自己的完整的自動駕駛系統。數據也驗證了百度 Apollo 在這一目標上的不懈努力,截至目前,百度 Apollo 平臺已經匯聚了全球 177 家生態合作伙伴;在全球,有 97 個國家超過 3.6 萬名開發者使用 Apollo 開源代碼,開源代碼數量超過 56 萬,Apollo 自動駕駛平臺已成為全球最強大、最開放、最活躍的自動駕駛平臺。
目前已經有 10 萬人嘗試過無人車,而這個數量也在一路攀升,無人車終將駛入更多城市,駛入普通百姓的生活。百度在自動駕駛、智能交通和智能車聯上將還會有哪些創新,Apollo 是否迎來了它的春天?是否能通過共享其無人駕駛技術的平臺成為汽車界的安卓呢?我們拭目以待。
4.看見看不見的數據,ECharts 詮釋數據之美
除了飛槳和 Apollo ,大家對 ECharts 一定不陌生,疫情期間從紅到白、可視化的疫情地圖背后就有 ECharts 的身影。
從 2013 年 1.0 版本發布至今,整整陪伴用戶 7 年的 ECharts 一直在小步快跑,在交互、多維度數據分析、數據自由刷選、多圖表聯動、渲染等方面都展現了不凡的創新能力。
作為當前最流行、最強大的可視化庫之一,它提供了直觀,生動,可交互,可個性化定制的數據可視化圖表,包括常規的折線圖、柱狀圖、散點圖、餅圖、K 線圖,用于統計的盒形圖,用于地理數據可視化的地圖、熱力圖、線圖,用于關系數據可視化的關系圖、treemap、旭日圖,多維數據可視化的平行坐標,還有用于 BI 的漏斗圖,儀表盤。它創新的拖拽重計算、數據視圖、值域漫游等特性大大增強了用戶體驗,賦予了用戶對數據進行挖掘、整合的能力。
并且它可以流暢地運行在 PC 和移動設備上,兼容當前絕大部分瀏覽器,提供直觀、交互豐富、可實現高度個性定制化的數據可視化圖表,也可將其封裝為任何 MVVM 框架的組件方便使用。
帶著顛覆性的功能設計和技術特征的 ECharts 出現后迅速成為國內數據可視化領域的后起之秀,已經成為國內優秀的數據可視化工具平臺。目前,Apache ECharts (incubating) 在 Github 中的 star 數已經超過 41.4k,每周 npm 下載量超過 22 萬,這樣的成績離不開核心團隊、開源社區、項目貢獻者及無數用戶的共同努力。
Apache ECharts (incubating) 的第 100 個 Contributor 蓮梓在使用 Apache ECharts (incubating) 的過程中,總結了幾條經驗:
第一,先針對該問題對應的概念,到文檔中搜索關鍵字,然后其中提到的方法可以在代碼中再定位一下;
第二,該問題在其他圖表中有沒有類似的功能,找到另一個圖表中的實現方式,遷移過來;
第三,根據現象判斷是 model 層的問題,還是 view 層的問題。例如超出畫布范圍的圖像渲染很可能是視圖層的問題;
第四,縮小一下要定位的范圍。
“優秀的開源項目只有擁有強大的社區才能發展得長遠,同理,如果想在自己感興趣的方向走得更遠,要擁有一群志同道合的伙伴。成為 Apache ECharts (incubating) 社區中的一員就是在數據可視化方向上探索的一個開始。”蓮梓說。
5.眾志成城,開源社區帶來無限可能
一款深度學習框架產品要被廣大開發者認可,在具有技術競爭力的基礎上,將內部的核心技術開源是第一步,還要長期持續緊貼用戶需求,在開源社區的不斷反饋中迭代平臺架構,只有協調多方參與者與平臺不斷打磨,圍繞框架建立自己的生態,才會提高開發者在平臺的留存與粘度,為開發者們的學習和成長提供更多的可能。
在開源中,代碼并不是最重要的元素,最關鍵的是人,從關注開源,到使用開源,再到參與開源共享,越來越多的開發者通過開源技術來構建業務,構成這個鏈條的每一位開發者都是星星之火,而這些星星之火的聚集就形成了開源領域最重要的一環——社群。
在這群有共同興趣聚集的技術人的眼中,“開源”兩字幾乎變成了一種“信仰”,它預示著一種自由,是一種秩序,更是一種人與人之間通過代碼的聯結。
作為深度學習平臺飛槳社群的一員,小鵬(化名)形容自己對飛槳的感覺是“一見鐘情”,除了免費 GPU 資源和豐富的 API 接口,最吸引他的是社區氛圍。在飛槳,他認識了很多有趣的朋友,并且參與了有意義的項目,這些經歷讓他如獲至寶。他曾通過飛槳框架搭建了一個深度學習模型,通過攝像頭捕捉和識別手語,再轉化成語音,從而實現和聾啞人交流的目標。
目前該模型已經實現了比較準確的識別,也具有了一定的泛化能力,即使使用者的手語不夠標準,也能夠識別出來。不過,小鵬覺得這個應用還不夠完善,他正在嘗試將語音轉成文字模塊,再翻譯成手語,從而搭建起常人和聾啞人雙向溝通的橋梁。他將項目代碼在 AI Studio 人工智能學習與實訓社區開源,希望更有能力的人將它優化及落地,從而幫助更多的人。
同樣,另一位活躍在飛槳社區的成員弘齊(化名)有一個頗具知名度的代號:GT,很多開發者喜歡叫他“GT 大佬”。這尊稱的由來不僅因為他加入社區早,活躍度高,還因為他有一副熱心腸,是社區里的“答疑機器人”。
2020 年年初,大自然保護協會 (TNC) 提出的野外攝像裝置拍攝的圖像面臨著數據量龐大、人工處理繁瑣、低效等難題,弘齊有了自己的想法:如果能用 AI 輔助進行圖片的篩選和標注,就能大幅提高工作效率,從技術上實現圖片處理并不難,但是這個項目帶來的挑戰在于數據量非常龐大,并且不是國際通用的格式。
責任編輯:-