1月27日,第33屆 AAAI(AAAI 2019)在美國夏威夷召開。在現場,百度作為金牌贊助商,通過展臺宣傳、Job Fair 宣講等方式,進一步向全球展示百度 AI 技術全面的發展。
“產學”軟硬結合展示百度 AI 雄厚實力
AAAI 于1979年成立,是國際人工智能領域的頂級國際會議。這一協會如今在全球已有超過6000名的會員,匯集了全球最頂尖的人工智能領域專家學者,一直是人工智能界的研究風向標,在學術界久負盛名。
本屆大會共收到7700余篇有效投稿,其中7095篇論文進入評審環節,最終有1150篇論文被錄用,錄取率為近年最低僅為16.2%。百度在含金量如此高的會議上,共獲得15篇論文被收錄的成績。其中有5位作者受邀在主會做 Oral 形式報告,另有10位作者將攜論文在主會以 Spotlight Poster 形式做報告。這不僅在百度參會歷史上創新高,在國內巨頭中也非常領先。
收錄論文覆蓋領域豐富,涉及智能出行、無人駕駛、NLP
在百度此次收錄的15篇論文中,內容涉及智能出行、機器學習、視頻建模、無人駕駛、自然語言處理、智能醫療等多個領域。
自然語言處理領域
百度這次被 AAAI 收錄的論文《Modeling Coherence for Discourse Neural Machine Translation》,提出了一種篇章級別的翻譯模型,能夠使得篇章內的句子之間保持良好的連貫性和一致性。這是由于翻譯一些文檔、演講之類的文本時,通常需要慮句子之間的銜接性和連貫性。而傳統的翻譯模型通常都是將一個句子當做單獨的翻譯單元,忽視了句子之間的關聯性。
具體來說,該論文提出了一種多輪解碼方案,在第一輪解碼中單獨生成每個句子的初步翻譯結果,在第二輪解碼中利用第一輪翻譯的結果進行翻譯內容潤色,并且提出使用增強式學習模型來獎勵模型產生篇幅更一致的譯文。最終在演講文本的測試集合上,論文提出的模型不僅能夠提升句子級別1.23 BLEU,同時能夠提升篇章級別2.2 BLEU。通過實驗分析,本文提出的翻譯模型確實能產生篇章更加連貫和一致的句子。
此模型是基于 Transformer 模型設計的。首先,訓練流程中的一個 batch 為一篇文章中的所有句子,在第一輪解碼中,采用標準的 Transformer 模型生成單個句子的初步翻譯結果。在第二輪解碼中,將第一輪產生的譯文合并成一個句子,構成此篇章翻譯的參考譯文。同時將初步翻譯結果作為一個額外的 Multi-Head Attention 機制,加入到 Decoder 的解碼流程中。通過這個步驟,在第二輪解碼的過程中,在翻譯單個句子時,能夠考察其他句子可能產生的翻譯結果,進而調整當前句子的文本輸出概率,盡量使得翻譯結果更一致。最終利用 Self-critical 的學習機制,鼓勵模型生成篇章一致性的譯文。值得一提的是,不僅僅是第二輪解碼中可以使用增強式學習機制,在第一輪解碼中也可以鼓勵模型產生更一致的譯文。
本文首次在學術和工業界提出解決神經網絡翻譯中的篇章一致性和連貫性問題,并且提出了一種通用的解碼框架,通過多輪解碼和增強式學習策略,使得模型能產生良好的篇章連貫和一致性的譯文。同時,本文還提出了若干評估篇章連貫和一致性的評價方法,有利于促進相關的研究工作發展。
目前的在線翻譯引擎基本都是針對單個句子進行解碼翻譯,并不能保證一篇文章翻譯出來后句子之間有很好的連貫性,采用本文提出的方法,能夠使得篇章級別的翻譯文本閱讀起來更流暢,句子之間的連貫性更好。
無人車駕駛領域
為了能在復雜的城市交通中安全有效地行駛,無人車必須對周圍交通體(機動車,自行車,行人等等)的行為軌跡做出可靠的預測。一個十分重要又具有挑戰性的任務就是探索各種各樣的交通體的不同的行為特征并能對它們做出及時準確的預測,進而幫助無人車做出合理的行駛決策。
為了解決這個問題,《TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents》的作者提出了基于 LSTM 的路徑預測算法 TrafficPredict。他們的方法是用實例層來學習個體的運動規律和它們之間的交互,用類別層來學習同一類別的個體的運動的相似性,從而進一步優化對個體的預測結果。
他們采集了一個復雜路況下的交通數據集,正常行駛的汽車通過 Lidar 采集的連續幀數據經過標注得到。問題設定為觀察交通體[0 : Tobs]時間段內的運動軌跡,預測 [Tobs + 1 : Tpred]的運動軌跡。對于一個時間段的數據,首先把數據組織成一個4D Graph。
這個 Graph 包含兩個層,一個是實例層,一個是類別層。在實例層中,每一個個體看成一個節點,每一幀中個體之間通過邊連接,相鄰幀的同一個體也通過邊連接。在類別層中,同一幀中相同類別的個體把信息匯總到一個超節點中,超節點會總結經驗,進而反向改善每一個個體的預測結果,相鄰幀的同一個超節點也通過邊連接。4D Graph 通過邊捕捉個體在空間上的交互信息,在時間上的連續信息,和在類別上的相似信息,通過節點和超節點匯總和分析這些信息。
本文提出的方法把多類別交通體的路線預測統一到一個框架之下,通過構建空間和時間維度上的4D Graph,充分利用交通體自身的運動模式和與周圍交通體交互的信息,并通過超節點總結概括同類別運動相似性來改善個體的結果,從而對每個交通體的軌跡預測精度有了較大提高。另外,本文還發布了多類別體的復雜城市交通的路線數據集。
目前自動駕駛的測試場景都是比較規則和簡單的交通場景:有清晰的車道線,紅綠燈,交通參與體比較單一。但是,很多城市交通,比如中國或印度的城市交通,具有很高的復雜度。尤其在一些十字路口,自行車、三輪車、汽車、公交車交互前進。本文針對多類別體城市交通提出的的路徑預測算法,為無人車在復雜交通場景下的導航提供了更為精確的指導,進而可以提升自動駕駛系統的安全性。
視頻建模
深度學習在靜態圖像理解上取得了巨大成功,然而高效的視頻時序及空域建模的網絡模型尚無定論。不同于已有的基于 CNN+RNN 或者 3D 卷積網絡的方法,《StNet: Local and Global Spatial-Temporal Modeling for Action Recognition》 一文提出了兼顧局部時空聯系以及全局時空聯系的視頻時空聯合建模網絡框架 StNet。
具體而言,StNet 將視頻中連續 N 幀圖像級聯成一個 3N 通道的“超圖”,然后用 2D 卷積對超圖進行局部時空聯系的建模。為了建立全局時空關聯,StNet 中引入了對多個局部時空特征圖進行時域卷積的模塊。特別地,我們提出了時序 Xception 模塊對視頻特征序列進一步建模時序依賴。在 Kinetics 動作識別數據集的大量實驗結果表明,StNet 能夠取得 State-of-the-art 的識別性能,同時 StNet 在計算量與準確率的折衷方面表現優異。此外實驗結果驗證了 StNet 學習到的視頻表征能夠在 UCF101 上有很好的遷移泛化能力。
StNet 提出了局部和全局時空聯系聯合建模的概念,能得到更具判別力的視頻表征,有效的提高視頻動作識別的性能。同時,StNet 的設計兼顧了計算量與識別準確率的折衷,具有很好的實用價值。StNet 作為一個 backbone 網絡結構,可以應用在用 video2vector、視頻識別等方面。
本屆 AAAI 2019大會,百度多篇論文的集中收錄,不僅為業界培養了諸多有突出貢獻的研究人員,也在全球范圍內彰顯著百度 AI 技術的雄厚實力.
讓每一位開發者都能平等便捷地獲取 AI 能力是百度 AI 不變的愿景!
附:被 AAAI 2019收錄的百度15篇論文題目
l Modeling Coherence for Discourse Neural Machine Translation
l Joint Representation Learning for Multi-Modal Transportation Recommendation
l SpHMC: Spectral Hamiltonian Monte Carlo
l StNet: Local and Global Spatial-Temporal Modeling for Action Recognition
l TrafficPredict: Trajectory Prediction for Heterogeneous Traffic-Agents
l Read, Watch, and Move: Reinforcement Learning for Temporally Grounding Natural Language Descriptions in Videos
l Addressing the Under-translation Problem from the Entropy Perspective
l Understanding Story Characters, Movie Actors and Their Versatility with Gaussian Representations
l Joint Extraction of Entities and Overlapping Relations using Position-Attentive Sequence Labeling
l Oversampling for Imbalanced Data via Optimal Transport
l Multi-agent Discussion Mechanism for Natural Language Generation
l Sign-Full Random Projections
l Interactive Attention Transfer Network for Cross-domain Sentiment Classification
l Exploiting the Contagious Effect for Employee Turnover Prediction
l Distant Supervision for Relation Extraction with Linear Attenuation Simulation and Non-IID Relevance Embedding