深度學習技術及應用國家工程研究中心

語音是智能交互重要而便捷的入口，語音技術是人工智能關鍵核心技術之一，已廣泛應用于移動互聯網、智能家居、智能車載、智能IOT、智慧醫療、智能辦公和智能客服等領域。

語音預訓練和大模型技術是近期業界的研究重點，我們研發了基于歷史抽象的流式截斷conformer的語音識別技術，下一步將重點探索語音預訓練大模型，以及面向實際應用的快速蒸餾技術。同時，信號處理和語音識別一體化建模、語音識別和語義理解一體化建模、基于細粒度建模的對抗解耦合成技術，以及情感個性化合成等也是重要的創新方向。

近年來端側語音交互需求旺盛，智能座艙成為關鍵應用場景，跨模態技術和三態融合的深度學習、結合虛擬人表情的情感語音合成都成為復雜語音交互業務的重要探索方向，這也使得基于專用芯片的語音技術成為業界研發的熱點。語音技術從單純的識別、合成，走向文本、語音和圖像一體化交互發展階段，需要以用戶體驗為核心進行持續的超越和創新。同時，隱私保護趨強，數據安全問題日漸突出，基于芯片的語音解決方案也是保護個人信息的重要手段。

工程研究中心將繼續在語音預訓練、跨模態融合以及智能語音芯片上深耕，引領語音技術和產業化創新。