計算語言學前景好
計算語言學是計算機研究和處理自然語言的一門新興交叉學科。近年來,在推動新文科建設的背景下,計算語言學及其相關應用越來越受到人們的關注。計算語言學領域的學者在接受本報記者采訪時表示,計算語言學方興未艾,應用廣泛,前景廣闊。
文科三大學科
計算語言學是一門跨越語言學、數學和計算機科學的跨學科學科。它還涉及文科、科學和工程三大領域,具有跨學科性質。從事計算語言學的學者不僅要有語言知識,還要有數學知識和計算機科學知識。教育部語言文字應用研究所研究員馮志偉告訴記者,面對信息網絡時代的新要求,許多語言學家正在努力學習計算機自然語言處理技術,不斷更新知識,重新學習,成為新一代懂語言學、懂數學、懂計算機的語言學家。
北京大學是計算語言學的一個重要研究中心。談到當前計算語言學的前沿,北京大學計算語言學研究所所長王厚峰告訴記者,統計和機器學習方法在過去20年中一直占據著自然語言處理的主導地位。統計方法和機器學習方法都是基于數據的。因此,也可以說,20多年來,自然語言處理一直以數據驅動為主。近年來,深度學習的發展進一步強化了數據的作用,尤其是無標記語言數據的使用。在深度學習的框架內,有一些具有代表性的技術,如訓練前語言模型的出現。
計算語言學已開始被廣泛應用。馮志偉以機器翻譯為例,指出計算語言學目前在機器翻譯方面取得了很大的成就,機器翻譯經歷了基于規則的機器翻譯、統計機器翻譯、神經機器翻譯等階段,目前機器翻譯正在被應用和商業化,機器翻譯已經從學者們的夢想中成為現實。
發揮優勢促進學科整合
近年來,隨著人工智能、數字人文、大數據等領域的迅速發展,以及新文科建設的需要,各學術機構結合各自學科的優勢,促進研究工作,在計算語言學和自然語言處理領域建立了新的學術機構。例如,北京語言大學語言智能研究所成立于2019年6月,清華大學人工智能研究所于2019年7月成立了自然語言處理和社會人文科學研究中心。
王厚峰介紹了他們目前的新研究。一是跟蹤和改進,如在培訓前模式中,嘗試整合包括結構化知識在內的多模態信息;二是提高模型效率。在目前的深度學習框架下,培訓的復雜性很高,如何降低復雜度是一個需要研究的問題。第三,加強以漢語為核心的語言知識挖掘研究。
在北京語言大學教授宋若看來,語言學與語言工程之間還存在著脫節,有必要促進語言學與語言工程的深度融合,加強合作,建立語言知識體系。
清華大學漢語教授劉適和清華大學計算機科學與技術教授孫茂松開展了學術合作,提出了建立"中國古典知識庫"的構想。劉氏目前正在承擔國家社科基金"基于大數據技術的中國古典文學文獻分析與研究"的重大課題。在古詩詞分詞和知識圖的研究中,運用計算語言學和自然語言處理技術,實現了古詩詞文本的詞匯提取、分詞和相關性分析,以及在線的"古典詩歌知識圖"。
經驗主義方法與理性主義方法的結合
如何進一步推進這一研究,王厚峰說,我國學術界在相關方面基本上屬于跟蹤研究,也有創新研究的必要。尤其是缺乏對漢語的計算研究,漢語有很多自己的特點,未來需要結合漢語的特點進行相關的研究。
馮志偉認為,目前在計算語言學研究中,深度學習已成為主流方法,幾乎已應用于計算語言學的各個領域,這是一種基于語言大數據的經驗主義方法,忽視了語言規則,深入學習應與語言研究相結合,以語言規則為基礎的經驗主義方法應與基于語言規則的理性主義方法相結合,以促進計算語言學的進一步發展。