本文件按照GB/T 1.1-2020《標準化工作導則 第1部分:標準的結構和編寫》給出的規(guī)則起草。
請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別這些專利的責任。
本文件由**市人工智能產(chǎn)業(yè)協(xié)會(Shenzhen Artificial Intelligence Industry Association)標準化委員會提出并歸口。
本文件起草單位:**市人工智能產(chǎn)業(yè)協(xié)會、**市8K超高清視頻產(chǎn)業(yè)協(xié)作聯(lián)盟、**賽西信息技術有限公司、**市優(yōu)必選科技股份有限公司、**市金大智能創(chuàng)新科技有限公司、科大訊飛股份有限公司、**市博樂信息技術有限公司、鋒睿領創(chuàng)(珠海)科技有限公司、*****耳智能聲學科技有限公司、**歐博思智能科技有限公司、藍亞技術服務(**)有限公司、**酷酷科技有限公司、**光子晶體科技有限公司、**奧尼電子股份有限公司、東莞市律普電子科技有限公司、杭州匯萃智能科技有限公司。
本文件規(guī)定了支持語音和視覺進行交互的虛擬數(shù)字人的技術要求和測量方法。
本文件適用于支持語音和視覺交互的虛擬數(shù)字人及其系統(tǒng)的研發(fā)、設計和測試。
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB 3096-2008 聲環(huán)境質量標準;
GB/T 5271.29-2006 信息技術 詞匯 第29部分:人工智能 語音識別與合成;
GB/T 12060.5-2011 聲系統(tǒng)設備 第5部分:揚聲器主要性能測試方法;
GB/T 12060.16-2017 聲系統(tǒng)設備 第16部分:通過語音傳輸指數(shù)客觀評價言語可懂度;
GB/T 14277-2013 音頻組合設備通用規(guī)范;
GB/T 21023-2007 中文語音識別系統(tǒng)通用技術規(guī)范;
GB/T 21024-2007 中文語音合成系統(tǒng)通用技術規(guī)范;
GB/T 34083-2017 中文語音識別互聯(lián)網(wǎng)服務接口規(guī)范;
GB/T 34145-2017 中文語音合成互聯(lián)網(wǎng)服務接口規(guī)范;
GB/T 35273-2020 信息安全技術 個人信息安全規(guī)范;
GB/T 35312-2017 中文語音識別終端服務接口規(guī)范;
GB/T 36464.1-2020 信息技術 智能語音交互系統(tǒng) 第1部分:通用規(guī)范;
GB/T 36464.2-2018 信息技術 智能語音交互系統(tǒng) 第2部分:智能**;
GB/T 36464.3-2018 信息技術 智能語音交互系統(tǒng) 第3部分:智能客服;
GB/T 36464.4-2018 信息技術 智能語音交互系統(tǒng) 第4部分:移動終端;
GB/T 36464.5-2018 信息技術 智能語音交互系統(tǒng) 第5部分:車載終端;
SJ/T 11380-2008 自動聲紋識別(說話人識別)技術規(guī)范;
SJ/T 11540-2015 有源揚聲器通用規(guī)范;
GB/T 38665.1-2020 信息技術 手勢交互系統(tǒng) 第1部分:通用技術要求;
GB/T 38665.2-2020 信息技術 手勢交互系統(tǒng) 第2部分:系統(tǒng)外部接口;
SJ/T 11348-2016 平板電視顯示性能測量方法;
GB/T 35273—2020《信息安全技術個人信息安全規(guī)范》。
下列術語和定義適用于本文件。
1.虛擬數(shù)字人 virtual digital human:
是基于計算機視覺和語音合成等技術,進行形象、聲音、動作等的模型訓練后,可以生成虛擬人像并與使用者交互的設備。
2.語音交互 speech interaction:
人類和功能單元之間通過語音進行的信息傳遞和交流活動。
[GB/T 36464.2-2018,定義3.1]
3.語音識別 speech recognition:
將人類的聲音信號轉化為文字或者指令的過程。
[GB/T 21023—2007,定義3.1]
4.語音合成 speech synthesis:
將給定的文本轉換成與之對應的語音的過程。
[GB/T 34145—2017,定義3.1]
5.自然語言理解 natural language understanding:
讓計算機能夠理解自然語言文本中蘊含的含義及意圖的過程。
6.語音喚醒 speech wake-up;voice trigger:
處于音頻流**狀態(tài)的語音交互系統(tǒng),在檢測到特定的特征或事件出現(xiàn)后,切換到命令詞識別、連續(xù)語音識別等其他處理狀態(tài)的過程。
[GB/T 36464.2-2018,定義3.13]
7.誤喚醒 false wake-up:
語音交互系統(tǒng)處于音頻流**狀態(tài),無音頻流或者音頻流中沒有出現(xiàn)喚醒所需的特征或事件時,語音喚醒系統(tǒng)被喚醒的現(xiàn)象。
[改寫GB/T 36464.2-2018,定義3.14]
8.噪聲 noise:
語音采集過程中,采集到的能干擾對目標語音信號的識別、理解或處理的信號。
9.聲紋 voiceprint:
指語音中所蘊含的、能表征和標識特定說話人的獨有的特性或特征。
[SJ/T 11380—2008,定義3.1.1]
10.聲紋識別 voiceprint recognition:
根據(jù)待識別語音的聲紋特征識別該段語音所對應的說話人的過程。
[SJ/T 11380—2008,定義3.1.6]
11.麥克風陣列 microphone array:
由具有確定空間拓撲結構的多個麥克風組成的,對信號的空間特性進行采樣并處理的系統(tǒng)。T/AIIA-002-2021
12.語音打斷 speech interruption:
語音交互系統(tǒng)在播放聲音的過程中,當語音采集設備檢測到有效語音輸入時,終端播放聲音,轉到語音識別等其他處理過程。
[GB/T 36464.2-2018,定義3.18]
13.隱私標簽 privacy label:
由廠商或者開放平臺應用定義的涉及使用者私密信息的數(shù)據(jù),對該類型數(shù)據(jù)加以標識的標簽。
14.手勢 gesture:
用戶利用上肢(包括手部和手臂)表達交互意圖時,所執(zhí)行的具體姿態(tài)或動作。
15.手勢識別 gesture recognition:
從輸入的手勢圖像/視頻數(shù)據(jù)確定用戶手勢狀態(tài)。
16.人體姿態(tài)估計 pose estimation:
從2D圖像中,預測人體的13個關節(jié)點和5個頭部關鍵點的圖像坐標。13個人體關節(jié)點的
定義為:1 脖子(neck)、2 右肩(right shoudler)、3 右肘(right_elbow)、4 右腕(right_wrist)、5 左肩(left_shoudler)、6 左肘(left_elbow)、7 左腕(left_wrist)、8 右髖(right_hip)、9 右膝(right_knee)、10 右踝(right_ankle)、11 左髖(left_hip)、12 左膝(left_knee)、13 左踝(left_ankle);5個頭部關鍵點的定義為:14 鼻子(nose)、15 右眼(right_eye)、16 左眼(left_eye)、17 右耳(right_ear)、18 左耳(left_ear)。
語音交互測試要求
1 測試語料要求:
測試語料應覆蓋被測系統(tǒng)的核心詞匯,并從被測系統(tǒng)詞匯量覆蓋、業(yè)務覆蓋、音節(jié)覆蓋,以及常用性角度進行設計,具體要求應按GB/T 21023-2007執(zhí)行。
2 語音測試集要求:
語音測試集應符合以下要求:
1) 語音識別準確率測試應至少由男女老少各 25 名發(fā)音人進行錄制,語音喚醒功能測試應至少由 100 名發(fā)音人錄制,具體要求應按 GB/T 21023-2007 執(zhí)行;
2) 聲紋識別測試應至少由 50 名發(fā)音人錄制驗證,具體要求應按 GB/T 21023-2007 執(zhí)行。
支持語音和視覺交互的虛擬數(shù)字人技術規(guī)范就先講到這里了,想要獲取更多認證有關的內容,您可關注藍亞技術,我們將持續(xù)為您講解~ ,您這邊有任何疑問也可以聯(lián)系13632500972 (微同號)
公司以藍牙無線技術服務起家,目前已擁有數(shù)字化實驗室、EMC電磁兼容、RF射頻、藍牙BQB、安規(guī)、物聯(lián)網(wǎng)性能、音頻性能和可靠性實驗室,是華南地區(qū)首家取得藍牙5測試能力的授權實驗室。藍亞技術在武漢的實驗室服務華中地區(qū)。我們的實驗室滿足ISO17025:2017體系,并已獲得中國CNAS:L9788;美國 A2LA:CN1252;加拿大CAB:CN0028;日本C&S認可、藍牙聯(lián)盟BQTF資質;亞馬遜合作檢測認證供應商資質。
擁有無線產(chǎn)品暢銷全球相關測試能力,可提供BQB、SRRC、CR認證(機器人)、FCC、IC、CE、Carplay、AndroidAuto、RCM、MIC/TELEC、研發(fā)跟互聯(lián)軟件測試及東南亞、中東、南美洲、非洲等多國轉證服務。