來源:百家號
近日,百度OCR(文字識別)技術團隊亮相文檔分析與識別國際會議(International Conference on Document Analysis and Recognition,ICDAR2017),進行了名為《RTRS: Building a Robust Text Reading System for Unconstrained Scene Images》的技術研討會(tutorial)。研討會上,來自百度OCR的工程師團隊與全球頂尖OCR專家分享了百度OCR識別技術的近期發展狀態和產品應用方面的經驗及思考。據悉,在ICDAR2017會議進行研討會(tutorial)分享的技術團隊中,百度OCR技術團隊是唯一一支來自企業界的技術團隊。他們以獨特的產學結合技術風格,和豐富工業級技術開放生態,吸引了來自全球的近百位文字識別專家的關注。
ICDAR是全球OCR領域公認最權威的學術會議之一,由其組織的Robust Reading競賽也是當前OCR技術領域全球最具影響力的比賽,其中最具挑戰的OCR競賽任務是"Incidental Scene Text"(自然場景隨拍文字識別)。在這項高難度競賽挑戰中,百度OCR技術在檢測、識別和端到端三個核心技術領域,近兩年來多次取得并保持了世界第一的排名,具備明顯的領先優勢。
在ICDAR技術細節研討會上,百度OCR團隊梳理了近些年業界技術發展的脈絡,主動分享了百度OCR技術發展的經驗總結,與參會的技術專家們一起探討文字識別前沿技術發展趨勢。另一方面,百度OCR團隊作為工業界的代表,也詳細介紹了團隊在OCR工業系統研發和產品化過程中的一些成功經驗,幫助業界同仁解決技術落地過程中的實際問題。最后,百度工程師介紹了應用于百度系產品生態的基于自然圖像搜索/網絡圖像場景的通用文字識別的產品應用矩陣,和聚焦在證照識別、票據識別的場景應用解決方案。豐富的干貨分享,使得整個研討會的交流氣氛異常熱烈,原定3個小時會議,足足持續了4個多小時。
百度視覺技術部下屬的OCR團隊組建于2011年,經過多年的研發,目前已經將基于深度學習的OCR技術應用在多個應用場景下,支持中、英、日、韓、葡、德、法、意、西、俄等十國語言。同時,結合產品應用場景不斷采集訓練數據,再通過百度大腦優化算法,從而獲得越來越好的OCR效果和產品體驗。目前,百度OCR已經在百度系各個產品生態中落地,并構建起基于自然圖像搜索/網絡圖像場景的通用文字識別的產品應用矩陣,和領先的證照識別、票據識別等場景的應用解決方案。
為了保證用戶使用基于百度OCR技術的產品體驗越來越好,百度OCR團隊積極進行思考、創新、開放的良性發展道路,努力保持技術方案和系統效果業界領先。近兩年,百度OCR的多個創新技術成果,在ICDAR 競賽上多次取得世界第一的排名,并有多篇業界頂級會議論文發布。在最近的計算機視覺頂級國際會議ICCV2017上,百度發表的基于全卷積神經網絡的文字檢測論文:WordSup: Exploiting Word Annotations for Character based Text Detection,獲得了業內的一致好評。
技術不斷突破的同時,百度OCR技術也通過百度AI技術開放平臺(ai.baidu.com) 全面開放給第三方使用,打破封閉的研發生態,為開發者和合作伙伴賦能,積極推動技術在具體產品上的落地。此前,開發者陶新樂也體驗了百度OCR技術的智能便捷。他研發的白描APP通過百度OCR開放平臺接入百度OCR技術,可將APP內的圖片轉換成文字,準確率極高,有效地滿足用戶的智能化需求。白描APP因為圖片轉文字的功能大獲好評,成為Apple Store工具類付費下載榜的前幾名,并被網友稱為“準確率高到沒朋友的文字識別OCR APP”。百度OCR技術可應用于不同場景,方便開發者探索通用文檔圖片錄入和檢索、自然場景輸入和翻譯、多種證照檢測識別、多種票據表格檢測識別等豐富的產品功能。目前,百度OCR通過AI技術開放平臺已經有數千日活躍開發者,并成功與泰康人壽、太保人壽、百信銀行等多家企業進行深入技術合作。
業內人士稱,百度OCR再次亮相世界級學術會議,體現出百度AI技術在業內的先發優勢、完整布局和深厚積累。隨著基礎能力的進一步開放,百度OCR技術將獲得更多的業界專家和開發者的支持,從而積累更為領先的技術,探索更多的應用場景,賦能更多的合作伙伴,創造更多的價值。