支持語音和視覺交互的虛擬數(shù)字人技術規(guī)范

2022-08-12   ?   Orange

本文件按照GB/T 1.1-2020《標準化工作導則 第1部分:標準的結構和編寫》給出的規(guī)則起草。

請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別這些專利的責任。

本文件由**市人工智能產(chǎn)業(yè)協(xié)會(Shenzhen Artificial Intelligence Industry Association)標準化委員會提出并歸口。

本文件起草單位:**市人工智能產(chǎn)業(yè)協(xié)會、**市8K超高清視頻產(chǎn)業(yè)協(xié)作聯(lián)盟、**賽西信息技術有限公司、**市優(yōu)必選科技股份有限公司、**市金大智能創(chuàng)新科技有限公司、科大訊飛股份有限公司、**市博樂信息技術有限公司、鋒睿領創(chuàng)(珠海)科技有限公司、*****耳智能聲學科技有限公司、**歐博思智能科技有限公司、藍亞技術服務(**)有限公司、**酷酷科技有限公司、**光子晶體科技有限公司、**奧尼電子股份有限公司、東莞市律普電子科技有限公司、杭州匯萃智能科技有限公司。

支持語音和視覺交互的虛擬數(shù)字人技術范圍:

本文件規(guī)定了支持語音和視覺進行交互的虛擬數(shù)字人的技術要求和測量方法。

本文件適用于支持語音和視覺交互的虛擬數(shù)字人及其系統(tǒng)的研發(fā)、設計和測試。


支持語音和視覺交互的虛擬數(shù)字人技術規(guī)范(圖1)


規(guī)范性引用文件:

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適

用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB 3096-2008 聲環(huán)境質量標準;

GB/T 5271.29-2006 信息技術 詞匯 第29部分:人工智能 語音識別與合成;

GB/T 12060.5-2011 聲系統(tǒng)設備 第5部分:揚聲器主要性能測試方法;

GB/T 12060.16-2017 聲系統(tǒng)設備 第16部分:通過語音傳輸指數(shù)客觀評價言語可懂度;

GB/T 14277-2013 音頻組合設備通用規(guī)范;

GB/T 21023-2007 中文語音識別系統(tǒng)通用技術規(guī)范;

GB/T 21024-2007 中文語音合成系統(tǒng)通用技術規(guī)范;

GB/T 34083-2017 中文語音識別互聯(lián)網(wǎng)服務接口規(guī)范;

GB/T 34145-2017 中文語音合成互聯(lián)網(wǎng)服務接口規(guī)范;

GB/T 35273-2020 信息安全技術 個人信息安全規(guī)范;

GB/T 35312-2017 中文語音識別終端服務接口規(guī)范;

GB/T 36464.1-2020 信息技術 智能語音交互系統(tǒng) 第1部分:通用規(guī)范;

GB/T 36464.2-2018 信息技術 智能語音交互系統(tǒng) 第2部分:智能**;

GB/T 36464.3-2018 信息技術 智能語音交互系統(tǒng) 第3部分:智能客服;

GB/T 36464.4-2018 信息技術 智能語音交互系統(tǒng) 第4部分:移動終端;

GB/T 36464.5-2018 信息技術 智能語音交互系統(tǒng) 第5部分:車載終端;

SJ/T 11380-2008 自動聲紋識別(說話人識別)技術規(guī)范;

SJ/T 11540-2015 有源揚聲器通用規(guī)范;

GB/T 38665.1-2020 信息技術 手勢交互系統(tǒng) 第1部分:通用技術要求;

GB/T 38665.2-2020 信息技術 手勢交互系統(tǒng) 第2部分:系統(tǒng)外部接口;

SJ/T 11348-2016 平板電視顯示性能測量方法;

GB/T 35273—2020《信息安全技術個人信息安全規(guī)范》。

術語和定義

下列術語和定義適用于本文件。

1.虛擬數(shù)字人 virtual digital human:

是基于計算機視覺和語音合成等技術,進行形象、聲音、動作等的模型訓練后,可以生成虛擬人像并與使用者交互的設備。

2.語音交互 speech interaction:

人類和功能單元之間通過語音進行的信息傳遞和交流活動。

[GB/T 36464.2-2018,定義3.1]

3.語音識別 speech recognition:

將人類的聲音信號轉化為文字或者指令的過程。

[GB/T 21023—2007,定義3.1]

4.語音合成 speech synthesis:

將給定的文本轉換成與之對應的語音的過程。

[GB/T 34145—2017,定義3.1]

5.自然語言理解 natural language understanding:

讓計算機能夠理解自然語言文本中蘊含的含義及意圖的過程。

6.語音喚醒 speech wake-up;voice trigger:

處于音頻流**狀態(tài)的語音交互系統(tǒng),在檢測到特定的特征或事件出現(xiàn)后,切換到命令詞識別、連續(xù)語音識別等其他處理狀態(tài)的過程。

[GB/T 36464.2-2018,定義3.13]

7.誤喚醒 false wake-up:

語音交互系統(tǒng)處于音頻流**狀態(tài),無音頻流或者音頻流中沒有出現(xiàn)喚醒所需的特征或事件時,語音喚醒系統(tǒng)被喚醒的現(xiàn)象。

[改寫GB/T 36464.2-2018,定義3.14]

8.噪聲 noise:

語音采集過程中,采集到的能干擾對目標語音信號的識別、理解或處理的信號。

9.聲紋 voiceprint:

指語音中所蘊含的、能表征和標識特定說話人的獨有的特性或特征。

[SJ/T 11380—2008,定義3.1.1]

10.聲紋識別 voiceprint recognition:

根據(jù)待識別語音的聲紋特征識別該段語音所對應的說話人的過程。

[SJ/T 11380—2008,定義3.1.6]

11.麥克風陣列 microphone array:

由具有確定空間拓撲結構的多個麥克風組成的,對信號的空間特性進行采樣并處理的系統(tǒng)。T/AIIA-002-2021

12.語音打斷 speech interruption:

語音交互系統(tǒng)在播放聲音的過程中,當語音采集設備檢測到有效語音輸入時,終端播放聲音,轉到語音識別等其他處理過程。

[GB/T 36464.2-2018,定義3.18]

13.隱私標簽 privacy label:

由廠商或者開放平臺應用定義的涉及使用者私密信息的數(shù)據(jù),對該類型數(shù)據(jù)加以標識的標簽。

14.手勢 gesture:

用戶利用上肢(包括手部和手臂)表達交互意圖時,所執(zhí)行的具體姿態(tài)或動作。

15.手勢識別 gesture recognition:

從輸入的手勢圖像/視頻數(shù)據(jù)確定用戶手勢狀態(tài)。

16.人體姿態(tài)估計 pose estimation:

從2D圖像中,預測人體的13個關節(jié)點和5個頭部關鍵點的圖像坐標。13個人體關節(jié)點的

定義為:1 脖子(neck)、2 右肩(right shoudler)、3 右肘(right_elbow)、4 右腕(right_wrist)、5 左肩(left_shoudler)、6 左肘(left_elbow)、7 左腕(left_wrist)、8 右髖(right_hip)、9 右膝(right_knee)、10 右踝(right_ankle)、11 左髖(left_hip)、12 左膝(left_knee)、13 左踝(left_ankle);5個頭部關鍵點的定義為:14 鼻子(nose)、15 右眼(right_eye)、16 左眼(left_eye)、17 右耳(right_ear)、18 左耳(left_ear)。

測試方法

語音交互測試要求

1 測試語料要求:

測試語料應覆蓋被測系統(tǒng)的核心詞匯,并從被測系統(tǒng)詞匯量覆蓋、業(yè)務覆蓋、音節(jié)覆蓋,以及常用性角度進行設計,具體要求應按GB/T 21023-2007執(zhí)行。

2 語音測試集要求:

語音測試集應符合以下要求:

1) 語音識別準確率測試應至少由男女老少各 25 名發(fā)音人進行錄制,語音喚醒功能測試應至少由 100 名發(fā)音人錄制,具體要求應按 GB/T 21023-2007 執(zhí)行;

2) 聲紋識別測試應至少由 50 名發(fā)音人錄制驗證,具體要求應按 GB/T 21023-2007 執(zhí)行。

支持語音和視覺交互的虛擬數(shù)字人技術規(guī)范就先講到這里了,想要獲取更多認證有關的內容,您可關注藍亞技術,我們將持續(xù)為您講解~ ,您這邊有任何疑問也可以聯(lián)系13632500972 (微同號)

公司以藍牙無線技術服務起家,目前已擁有數(shù)字化實驗室、EMC電磁兼容、RF射頻、藍牙BQB、安規(guī)、物聯(lián)網(wǎng)性能、音頻性能和可靠性實驗室,是華南地區(qū)首家取得藍牙5測試能力的授權實驗室。藍亞技術在武漢的實驗室服務華中地區(qū)。我們的實驗室滿足ISO17025:2017體系,并已獲得中國CNAS:L9788;美國 A2LA:CN1252;加拿大CAB:CN0028;日本C&S認可、藍牙聯(lián)盟BQTF資質;亞馬遜合作檢測認證供應商資質。

擁有無線產(chǎn)品暢銷全球相關測試能力,可提供BQB、SRRC、CR認證(機器人)、FCC、IC、CE、Carplay、AndroidAuto、RCM、MIC/TELEC、研發(fā)跟互聯(lián)軟件測試及東南亞、中東、南美洲、非洲等多國轉證服務。

相關內容:
  • 中國機器人CR認證_深圳藍亞
  • CR認證是強制性的嗎?
  • 機器人CR認證_深圳藍亞
  • CR認證詳細介紹
  • CR認證目錄(2023)
  • QQ在線咨詢
    全球認證咨詢
    13632500972
    實驗室座機
    0755-23059481
    <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://#/hm.js?6844225bf949cff65b89ec7139b9ad0f"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script>