• 百度知識圖譜部主任架構師朱勇:百度知識圖譜讓獲取“知識”更便捷

    2017-08-08 閱讀量 (1325)

    來源:中國網


    《戰狼2》口碑的爆棚,激起了許多還沒看過這部電影的人的好奇,大家紛紛“百度”一下,以免錯過時下最火的話題。而你在百度《戰狼2》的時候會發現,搜索結果不僅直接展示了影片的信息,還關聯了選座、購票等服務,非常“貼心”。這背后,實際上是知識圖譜在發揮作用。


    7月29日-7月30日,大數據與計算智能高端學術會議BDCI 2017(Big Data and Computational Intelligence)在北京舉行,會議邀請了全球權威專家介紹和分享數據科學、計算智能及其應用方面的最新成果。作為工業界代表,百度知識圖譜部主任架構師朱勇博士受邀發表了題為《大規模知識圖譜研發與應用》的特邀報告,系統全面地介紹了百度知識圖譜的前沿研究成果和未來方向。


    (朱勇介紹百度知識圖譜)


    知識圖譜:人工智能時代的核心認知技術

    知識圖譜究竟是什么?其中很重要的一個關鍵詞是——“知識”。傳統搜索是基于關鍵詞和網頁,并不能理解文本和網頁結果中的真實含義。知識圖譜則是基于知識本身,將互聯網所有的知識積累起來,去真正的理解真實世界,將 “信息”搜集上升成為了“知識”積累,用知識理解世界。


    (一張以章子怡為核心的知識圖譜)


    知識圖譜這個看似陌生的概念,其實已經在我們身邊無處不在。比如,當我們搜索“太陽重量”時,搜索結果不再是密密麻麻的網頁鏈接,而是直接顯示“太陽質量是1.9891*103?千克”。



    通過搜索直接得到“知識”,是知識圖譜在背后發揮著重要的作用。作為全球最大的中文知識圖譜,百度知識圖譜包含了數以億計的高質量實體、數以千億計的事實,全面和動態的數據。百度知識圖譜索引了整個互聯網上的知識。百度知識圖譜能夠讓我們從不同的角度去了解真實世界,并且拓展出廣泛的應用場景,在搜索、問答、推薦、對話以及文章自動內容生成方面發揮著關鍵作用。


    知識圖譜是人工智能時代重要的核心技術。百度集團總裁兼首席運營官陸奇在百度AI開發者大會上曾表示:知識就是力量,有了知識我們可以做預測、做自動化,解決任何重要的問題,人類歷史就是改造世界、認識世界的歷史,AI就是幫助人類認識世界、改造世界的工具,AI是人類歷史上重要的里程碑。


    在國務院最新印發的《新一代人工智能發展規劃》中,也明確提到了知識計算引擎與知識服務技術、跨媒體分析推理技術。其中寫到:“重點突破知識加工、深度搜索和可視交互核心技術,實現對知識持續增量的自動獲取,具備概念識別、實體發現、屬性預測、知識演化建模和關系挖掘能力,形成涵蓋數十億實體規模的多源、多學科和多數據類型的跨媒體知識圖譜”;“重點突破跨媒體統一表征、關聯理解與知識挖掘、知識圖譜構建與學習、知識演化與推理、智能描述與生成等技術,實現跨媒體知識表征、分析、挖掘、推理、演化和利用,構建分析推理引擎”。


    知識圖譜,讓應用更智能

    知識圖譜能夠對傳統搜索等應用進行智能化升級,為用戶帶來更智能的應用體驗。實際上,知識圖譜已經大規模應用到了日常生活當中,正悄悄改變著以往的使用體驗。


    首先,傳統的搜索結果是基于網頁的,搜索引擎并不知道結果的含義,只是羅列出和目標關鍵詞匹配的頁面地址,用戶需要自行到網頁上再次查找結果,而通過關鍵詞羅列的頁面并不一定能直達用戶想要的“知識”本身。以搜索長城的長度為例,傳統結果只能返回一些網頁,用戶需要去網頁中尋找結果。



    而通過知識圖譜,用戶可以直接獲取長度這個“知識點”。



    其次,利用知識圖譜中實體之間的豐富聯系,我們可以給出優質的推薦,激發用戶潛在的需求。比如當用戶搜索“楊冪”的時候,將直接推薦出和楊冪有關的各個維度的人物信息,并且能夠給出可解釋的推薦理由。



    第三,知識圖譜可以根據已有知識進行推理。例如,根據“打火機不可以帶上飛機”、“Zippo是打火機”這兩個知識,推斷出Zippo不可以帶上飛機,當用戶輸入查詢之后,將直接反饋推斷結果。



    第四,基于知識圖譜豐富的屬性和關系,用戶的搜索結果可以展現出事物的方方面面,聚合實體相關的信息和服務。例如,知識圖譜在時下最火的《戰狼2》的搜索中不僅聚合了影片的信息,還關聯了選座、購票等相關服務。



    第五,如果說以上還是大眾在使用搜索時的直觀體驗,那么讓機器寫稿子會不會有很科幻的感覺?基于知識圖譜豐富的知識,機器可以自動、批量化生產出引人入勝的文章。



    第六,傳統搜索是被動回復問題,而知識圖譜能夠主動預測用戶需求,提供符合需求的“知識”結果。比如在度秘系統中,系統就可以自動判定用戶想要觸及的“知識點”,進而給出用戶最想要的答案。



    最后,在復雜問題的處理上,知識圖譜也有很強的能力。例如,有些問題的表達是多樣化的,“魔獸啥時候出”、“魔獸哪一天公映”,這兩個口語和書面的表達,實際上是問同一個問題;此外,有些問題的“知識”分布非常廣泛,比如“一個b,一個翅膀的是什么車”。面對不同的問題,知識圖譜會采用不同的方法,類似魔獸上映時間這樣的問題,會用語義解析;針對“形容不會說話的成語” 這樣的長尾問題,采用開放問答挖掘的方式;針對“知識即美德是誰提出的”,則使用端到端的在線問答技術來解決。



    揭秘:隱藏在知識圖譜背后的技術力量

    為了實現這些目標效果,百度知識圖譜背后有著強有力的技術作為支撐,主要包括了知識抽取、并行實體歸一等幾大技術。

    第一,知識抽取技術。這項技術可以從海量網頁中抽取可信知識,并為實體挖掘精準、連貫、吸引力強的短摘要,從而突破了大規模開放領域知識抽取的效果限制。比如,通過網頁中信息,為用戶抽取有最有價值的信息。



    第二,并行實體歸一技術。它能通過多維度實體局域化、實體語義向量等方法,突破歸一計算規模的限制,實現精確的歸一效果。例如,在網絡中,“復仇者聯盟”、“復聯1”我們會很自然的認為是一個實體,但機器很難做到,通過實體歸一技術,知識圖譜會進行實體消歧,并建立它們之間的關聯。


    第三,中文知識理解認知技術。基于知識的概念意圖標注算法,它可以構建基于海量用戶行為挖掘、深度語義相似、函數式語義樹的語義形式化技術,解決了開放空間下,面向復雜中文語義的知識圖譜理解認知問題。此外通過研發知識計算語言KCL和多層知識計算算子群,能夠實現智能多層級知識推理與計算。


    第四,高性能分布式圖存儲計算和服務技術。通過分布式圖索引技術,高性能分布式圖存儲計算和服務技術能夠構建大規模分布式圖檢索、圖數據庫和圖計算框架,解決全網規模知識圖譜存儲、計算和服務的性能和規模問題。


    據了解,此次論壇由北京航空航天大學-大數據科學與腦機智能高精尖創新中心主辦,受國家973計劃“網絡信息空間大數據計算理論”項目的大力支持,截至目前已經成功舉辦四屆,具有廣泛的學術與研究影響力,論壇上討論的一些學術成果也已經在工業界落地。


    此次論壇吸引了數百名專業觀眾到場,百度知識圖譜吸引了觀眾們廣泛的關注和合作。未來,百度知識圖譜將會不斷發展,逐步覆蓋非簡單事實類知識、音視頻等跨媒體知識,并在知識自學習、知識化搜索和通用對話系統等前沿開放領域展開探索,推動百度AI向高級通用人工智能更進一步,用知識讓復雜的世界更簡單。

  • 韩国r级电影