來源:搜狐科技
在搜索引擎中輸入一個問題,通常會獲得多個候選答案,此時人們會通過對比判斷,選擇或歸納出最優答案。如果是機器來做這件事,會是怎樣的呢?
近日,百度的研究者從兩種不同角度出發,探索了多文檔校驗方案對多文檔閱讀理解的作用,分別提出了多文檔校驗模型 V-NET 以及一種強化學習訓練機制,進而讓機器能夠預測出更好的答案,提高準確率。目前,這兩項研究工作的論文均已被 ACL 2018大會錄用:
·《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》
·《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》
國際計算語言學學會(Annual Meeting of the Association for Computational Linguistics,簡稱 ACL)是自然語言處理與計算語言學領域最高級別的學術會議。ACL 會議涵蓋語言分析、信息抽取、自動問答、對話系統、機器翻譯等各個領域,每年發表的論文都反映了自然語言處理領域的最新研究進展和學術動向,受到學術界和工業界的廣泛重視。據報道,本屆會議共計有1551篇論文進入審查階段(1021 長篇,530 篇短篇),錄用率約為20%。一個研究機構在 ACL 上發表的論文數量和質量也在一定程度上代表了該團隊在本領域的研究實力和領先程度。
機器閱讀理解(Machine Reading Comprehension)是指讓機器閱讀文本,然后回答和閱讀內容相關的問題。其技術可以使計算機具備從文本數據中獲取知識并回答問題的能力,是構建通用人工智能的關鍵技術之一。簡單來說,就是根據給定材料和問題,讓機器給出正確答案。閱讀理解是自然語言處理和人工智能領域的重要前沿課題,對于提升機器智能水平、使機器具有持續知識獲取能力具有重要價值,近年來受到學術界和工業界的廣泛關注。
隨著機器閱讀理解技術的發展,閱讀理解任務也在不斷升級,從早期的“完形填空形式”,發展到基于維基百科的“單文檔閱讀理解”,如以斯坦福 SQuAD 為數據集的任務。并進一步升級至基于 web(網頁)數據的“多文檔閱讀理解”,這一形式的典型代表是以微軟 MS-MARCO、百度 DuReader 為數據集的任務。
目前,針對不同的閱讀理解任務,研究人員已經設計出多種模型,并取得初步成效。然而在多文檔閱讀理解任務中,由于與問題相關的文檔很多,帶來的歧義也更多,由此可能最終導致閱讀理解模型定位錯誤的答案。面對這些問題,人類的思考模式通常為:先找到多個候選答案,通過對比多個候選答案的內容,選出最終答案,由此來找到準確率最高的答案。沿著這種思路,百度從不同角度探索了多文檔校驗方案對多文檔閱讀理解的作用,進而讓機器能夠更好地理解內容,給出正確答案。
在論文《Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification》中,百度提出了一種新的多文檔校驗的深度神經網絡建模方法 V-NET,通過注意力機制使不同文檔產生的答案之間能夠產生交換信息互相印證,從而預測出更好的答案。V-NET 是一個端到端的神經網絡模型,如下圖所示,該模型同時使用三個不同的模塊分別從三個方面來預測答案:答案的邊界預測模塊、答案內容預測模塊和多文檔的答案驗證模塊。在 MARCO 和 DuReader 數據集上,V-NET 模型效果顯著優于其他系統。
V-NET 模型的整體架構
在論文《Joint Training of Candidate Extraction and Answer Selection in Reading Comprehension》中,百度利用強化學習的方法對串行的多文檔閱讀理解模塊進行聯合訓練。在傳統的問答系統中,“抽取候選答案->綜合選出答案”串行的模式非常常見,但通常將這兩個步驟看成獨立的模塊分開處理。其實,這兩個模塊之間的聯系非常密切,同時也由于數據集沒有提供各文檔的可能的候選答案,因此百度將各文檔中的候選答案視為隱變量,用神經網絡分別建模對應的兩種行為(action),并在多文檔校驗模塊中引入相關性矩陣建模候選答案之間的關聯關系。在此基礎上采用強化學習的方法聯合訓練,以提升最終答案與真實答案的匹配程度,也就是直接根據評價指標同步訓練兩階段的模型。
此外,針對多文檔閱讀理解任務,百度自然語言處理團隊此前已經發布了面向真實搜索應用的最大中文開放領域閱讀理解數據集 DuReader,包含30萬問題、150萬文檔和72萬答案。并基于此數據集舉辦了2018中文閱讀理解技術評測(http://mrc2018.cipsc.org.cn/),評測共有1062個隊伍報名,累計提交結果1489次。該評測推動了機器閱讀理解技術,尤其是中文閱讀理解技術的發展。DuReader 數據集以及評測方法的論文也均被 ACL2018閱讀理解研討會(Workshop on Machine Reading for Question Answering)所錄用:
·《DuReader: a Chinese Machine Reading Comprehension Dataset from Real-world Applications》
·《Adaptations of ROUGE and BLEU to Better Evaluate Machine Reading Comprehension Task》
百度在自然語言處理(NLP)領域已經過十余年積累與沉淀,具備了最前沿、最全面、最領先的技術布局,不僅專注于前瞻技術探索,更致力通過技術應用解決實際問題。據悉,上述兩項技術均已直接應用于百度搜索引擎產品中,提升機器閱讀理解的效果,它直接在搜索結果中精準定位用戶輸入的問題,并在顯著位置呈現,為用戶節約大量的寶貴時間。同時,作為百度 AI 技術的重要組成部分,這些技術還將賦能百度技術體系及智能產品中,提升用戶問答需求的相應能力,最終或將通過百度技術開放渠道開放,賦能廣大開發者與合作伙伴。