# 大模型多语种语音识别 API 文档
# 一、接口说明
大模型多语种语音识别能力,将多语种短音频(≤60秒)精准识别成文字,实时返回文字结果,真实还原语音内容。技术咨询可直接提交工单 (opens new window)
注意:测试或正式使用前,请去对应产品页面获取免费额度或下单购买正式套餐;同时需要去控制台服务页面,获取API有效密钥(AppID、APIKey、APISecret)后再调用。
大模型多语种语音识别产品页面 (opens new window)
大模型多语种语音识别服务页 (opens new window)
# 二、接口Demo
部分开发语言Demo如下,其他开发语言请参照文档进行开发,欢迎大家到讯飞开放平台社区 (opens new window)交流集成经验。
大模型多语种语音识别 Demo java语言 (opens new window)
大模型多语种语音识别 Demo python语言 (opens new window)
大模型多语种语音识别 PYTHON-SDK-DEMO (opens new window)
大模型多语种语音识别 JAVA-SDK-DEMO (opens new window)
# 三、接口要求
| 内容 | 说明 |
|---|---|
| 请求协议 | ws[s](为提高安全性,强烈推荐wss) |
| 请求地址 | 多语种语音地址:ws[s]: //iat.cn-huabei-1.xf-yun.com/v1 |
| 接口鉴权 | 签名机制,详情请参照下方接口鉴权 (opens new window) |
| 字符编码 | UTF-8 |
| 响应格式 | 统一采用JSON格式 |
| 开发语言 | 任意,只要可以向讯飞云服务发起HTTP请求的均可 |
| 音频属性 | 采样率16k或8K、位长16bit、单声道 |
| 音频格式 | pcm (传参audio.encoding=raw)、mp3(传参audio.encoding=lame) |
| 音频长度 | 最长60s |
# 四、接口鉴权
# 鉴权方法
通过在请求地址后面加上鉴权相关参数的方式。示例url:
websocket url: wss://iat.cn-huabei-1.xf-yun.com/v1?authorization=YXBpX2tleT0iNDRkNDQ5YTcxMTQ3NDg2MWIzOTcyZjIwNGYxODFkMmMiLCBhbGdvcml0aG09ImhtYWMtc2hhMjU2IiwgaGVhZGVycz0iaG9zdCBkYXRlIHJlcXVlc3QtbGluZSIsIHNpZ25hdHVyZT0iM2RiU1FUcEZpU0dkOUNRZ2xGQWpRc2tnK3JYU0UwbjZqdXd4alhUR0lPWT0i&date=Tue%2C+26+Nov+2024+08%3A44%3A08+GMT&host=iat.cn-huabei-1.xf-yun.com
鉴权参数:
| 参数 | 类型 | 必须 | 说明 | 示例 |
|---|---|---|---|---|
| host | string | 是 | 请求主机 | iat.cn-huabei-1.xf-yun.com |
| date | string | 是 | 当前时间戳,RFC1123格式 | Wed, 10 Jul 2019 07:35:43 GMT |
| authorization | string | 是 | 使用base64编码的签名相关信息(签名基于hmac-sha256计算) | 参考下方authorization参数生成规则 |
· date参数生成规则
date必须是UTC+0或GMT时区,RFC1123格式(Wed, 10 Jul 2019 07:35:43 GMT)。 服务端会对Date进行时钟偏移检查,最大允许300秒的偏差,超出偏差的请求都将被拒绝。
· authorization参数生成规则
1)获取接口密钥APIKey 和 APISecret。 在讯飞开放平台控制台,创建WebAPI平台应用并添加语音听写(流式版)服务后即可查看,均为32位字符串。
2)参数authorization base64编码前(authorization_origin)的格式如下。
api_key="$api_key",algorithm="hmac-sha256",headers="host date request-line",signature="$signature"
其中 api_key 是在控制台获取的APIKey,algorithm 是加密算法(仅支持hmac-sha256),headers 是参与签名的参数(见下方注释)。 signature 是使用加密算法对参与签名的参数签名后并使用base64编码的字符串,详见下方。
*注:* headers是参与签名的参数,请注意是固定的参数名("host date request-line"),而非这些参数的值。
3)signature的原始字段(signature_origin)规则如下。
signature原始字段由 host,date,request-line三个参数按照格式拼接成, 拼接的格式为(\n为换行符,’:’后面有一个空格):
host: $host\ndate: $date\n$request-line
假设
请求url = wss://iat.cn-huabei-1.xf-yun.com/v1
date = Tue, 14 May 2024 08:43:39 GMT
那么 signature原始字段(signature_origin)则为:
host: iat.cn-huabei-1.xf-yun.com
date: Tue, 14 May 2024 08:43:39 GMT
GET /v1 HTTP/1.1
4)使用hmac-sha256算法结合apiSecret对signature_origin签名,获得签名后的摘要signature_sha。
signature_sha=hmac-sha256(signature_origin,$apiSecret)
其中 apiSecret 是在控制台获取的APISecret
5)使用base64编码对signature_sha进行编码获得最终的signature。
signature=base64(signature_sha)
假设
APISecret = secretxxxxxxxx2df7900c09xxxxxxxx
date = Tue, 14 May 2024 08:43:39 GMT
则signature为
signature=fgG1OuqkHU6l/hNZ6Zs466ci+jUvOQjSNKWkLhvSoNM=
6)根据以上信息拼接authorization base64编码前(authorization_origin)的字符串,示例如下。
api_key="keyxxxxxxxx8ee279348519exxxxxxxx", algorithm="hmac-sha256", headers="host date request-line", signature="fgG1OuqkHU6l/hNZ6Zs466ci+jUvOQjSNKWkLhvSoNM="
注: headers是参与签名的参数,请注意是固定的参数名("host date request-line"),而非这些参数的值。
7)最后再对authorization_origin进行base64编码获得最终的authorization参数。
authorization = base64(authorization_origin)
示例:
authorization=YXBpX2tleT0ia2V5eHh4eHh4eHg4ZWUyNzkzNDg1MTlleHh4eHh4eHgiLCBhbGdvcml0aG09ImhtYWMtc2hhMjU2IiwgaGVhZGVycz0iaG9zdCBkYXRlIHJlcXVlc3QtbGluZSIsIHNpZ25hdHVyZT0iZmdHMU91cWtIVTZsL2hOWjZaczQ2NmNpK2pVdk9RalNOS1drTGh2U29OTT0i
# 五、数据传输接收与请求、返回示例
# 1、数据传输接收
握手成功后客户端和服务端会建立Websocket连接,客户端通过Websocket连接可以同时上传和接收数据。 当服务端有识别结果时,会通过Websocket连接推送识别结果到客户端。
数据发采用实时流式分包发送,每一包音频时长应符合人正常说话的实时场景,避免发包间隔过短或者发包长度过大,否则可能导致识别响应耗时增加。
音频发送规范建议:
- 音频数据发送间隔:40ms / 次
- 单次发送音频字节数:1280 字节(对应 python 示例 Demo 中 frameSize 参数的取值)
- 特殊说明:若音频为压缩格式,上述 1280 字节为解压后的音频数据字节大小
//连接成功,开始发送数据
int frameSize = 1280; //每一帧音频大小
int intervel = 40; //音频发送间隔
int status = 0; // 音频的状态
try (FileInputStream fs = new FileInputStream(file)) {
byte[] buffer = new byte[frameSize];
// 发送音频
# 2、请求json示例
第一帧数据:
{
"header": {
"app_id": "your_appid",
"status": 0
},
"parameter": {
"iat": {
"domain": "slm",
"language": "mul_cn",
"accent": "mandarin",
"eos": 6000,
"result": {
"encoding": "utf8",
"compress": "raw",
"format": "json"
}
}
},
"payload": {
"audio": {
"encoding": "raw",
"sample_rate": 16000,
"channels": 1,
"bit_depth": 16,
"seq": 1,
"status": 0,
"audio": "AAAAAP..."
}
}
}
中间帧数据:
{
"header": {
"app_id": "your_appid",
"status": 1
},
"payload": {
"audio": {
"encoding": "raw",
"sample_rate": 16000,
"status": 1,
"audio": "AAAAAA..."
}
}
}
最后一帧数据:
{
"header": {
"app_id": "your_appid",
"status": 2
},
"payload": {
"audio": {
"encoding": "raw",
"sample_rate": 16000,
"status": 2,
"audio":"AAAAAA..."
}
}
}
# 3、返回json示例
第一帧返回数据示例:
{
"header": {
"code": 0,
"message": "success",
"sid": "iat000e0044@hu18f5b16b0330324...",
"status": 0
}
}
中间帧返回数据示例:
{
"header": {
"code": 0,
"message": "success",
"sid": "iat000e0044@hu18f5b16b033032...",
"status": 1
},
"payload": {
"result": {
"compress": "raw",
"encoding": "utf8",
"format": "json",
"seq": 2,
"status": 1,
"text": "eyJzbiI6Miwib..."
}
}
}
最后一帧返回数据示例:
{
"header": {
"code": 0,
"message": "success",
"sid": "iat000e0044@hu18f5b16b033032...",
"status": 2
},
"payload": {
"result": {
"compress": "raw",
"encoding": "utf8",
"format": "json",
"seq": 76,
"status": 2,
"text": "eyJzbiI6NzYs..."
}
}
}
# 六、参数说明
# 1、请求参数说明
| 参数名 | 类型 | 必传 | 描述 |
|---|---|---|---|
| header | object | 是 | 用于上传平台参数 |
| header.app_id | string | 是 | 在平台申请的appid信息 |
| header.status | int | 是 | 音频传输状态 0:首帧 1:中间帧 2:最后一帧 |
| parameter | object | 是 | 用于上传服务特性参数 |
| parameter.iat | object | 是 | 服务名称,大模型多语种语音识别 |
| parameter.iat.domain | string | 是 | 指定访问的领域,固定取值: slm |
| parameter.iat.language | string | 是 | 语种,固定取值:mul_cn |
| parameter.iat.accent | string | 是 | 口音,固定取值:mandarin |
| parameter.iat.ln | string | 否 | 识别语种参数设置,支持3种模式: 1、免切模式:默认该模式,不需要指定语种参数引擎将自动识别语种 2、指定语种: 比如当前会话是英文那么传参 ln=en 3、指定在多个语种范围内识别:比如ln=zh|en|ja,中英日三个语种内识别,具体语种见下方列表(建议指定语种不要超过3个,指定过多语种对效果更易串扰,性能影响大) |
| parameter.iat.eos | int | 否 | 静音多少秒停止识别 如6000毫秒 |
| parameter.iat.vinfo | int | 否 | 句子级别帧对齐 |
| parameter.iat.result | obejct | 否 | 响应数据字段 |
| payload | object | 是 | 请求数据携带 |
| payload.audio | object | 是 | 音频数据模块 |
| payload.audio.encoding | string | 是 | 音频编码格式,支持以下取值: 1. raw:代表 pcm(脉冲编码调制)原始音频格式; 2. lame:代表 mp3音频格式(若 mp3 包含 ID3 头信息,需先移除,可参考 ffmpeg 命令:ffmpeg -i input.mp3 -map_metadata -1 -c:a copy output.mp3 完成移除) |
| payload.audio.sample_rate | int | 否 | 音频采样率 16000, 8000 |
| payload.audio.channels | int | 否 | 音频声道 1 |
| payload.audio.bit_depth | int | 否 | 音频位深 16 |
| payload.audio.seq | int | 否 | 数据序号 0-999999 |
| payload.audio.status | int | 否 | 取值范围为:0(开始)、1(继续)、2(结束) |
| payload.audio.audio | string | 是 | 音频数据base64 音频时长不要超过60秒 |
# 2、返回参数说明
| 参数名 | 类型 | 描述 |
|---|---|---|
| header | object | 协议头部 |
| header.message | string | 描述信息 |
| header.code | int | 返回码 0表示会话调用成功(并不一定表示服务调用成功,服务是否调用成功以text字段中的ret为准) 其它表示会话调用异常 |
| header.sid | string | 本次会话id |
| header.status | int | 数据状态 0:开始, 1:继续, 2:结束 |
| payload | object | 数据段,用于携带响应的数据 |
| payload.result.compress | string | 文本压缩格式 |
| payload.result.encoding | string | 文本编码 |
| payload.result.format | string | 文本格式 |
| payload.result.seq | int | 数据序号 0-999999 |
| payload.result.status | int | 0:开始, 1:继续, 2:结束 |
| payload.result.text | string | 听写数据文本 base64编码 |
text字段base64解码后参数说明请:
| 参数 | 类型 | 描述 |
|---|---|---|
| sn | int | 返回结果的序号 |
| ls | bool | 是否是最后一片结果 |
| bg | int | 保留字段,无需关心 |
| ed | int | 保留字段,无需关心 |
| ws | array | 听写结果 |
| ws.bg | int | 起始的端点帧偏移值,单位:帧(1帧=10ms) 注:以下两种情况下bg=0,无参考意义: 1)返回结果为标点符号或者为空;2)本次返回结果过长。 |
| ws.cw | array | 分词 |
| ws.cw.w | string | 字词 |
| ws.cw.lg | string | 源语种 |
| ws.cw.其他字段 sc/wb/wc/we/wp/ng/ph | int/string | 均为保留字段,无需关心。如果解析sc字段,建议float与int数据类型都做兼容 |
# 七、语种列表
| 语种 | 参数 | 语种 | 参数 |
|---|---|---|---|
| 中文(汉语) | zh | 英文(英语) | en |
| 日语 | ja | 韩语 | ko |
| 俄语 | ru | 法语 | fr |
| 西班牙语 | es | 阿拉伯语 | ar |
| 德语 | de | 泰语 | th |
| 越南语 | vi | 印地语 | hi |
| 葡萄牙语 | pt | 意大利语 | it |
| 马来语 | ms | 印尼语(印度尼西亚) | id |
| 菲律宾语(塔加洛语) | fil | 土耳其语 | tr |
| 希腊语 | el | 捷克语 | cs |
| 乌尔都语 | ur | 孟加拉语 | bn |
| 泰米尔语 | ta | 乌克兰语 | uk |
| 哈萨克语 | kk | 乌兹别克语 | uz |
| 波兰语 | pl | 蒙语(新蒙) | mn |
| 斯瓦西里语(斯瓦希里语) | sw | 豪撒语(豪萨语) | ha |
| 波斯语 | fa | 荷兰语 | nl |
| 瑞典语 | sv | 罗马尼亚语 | ro |
| 保加利亚语 | bg | 维语 | ug |
| 藏语 | tib | 亚美尼亚语 | hy |
| 僧伽罗语 | si | 缅甸语 | my |
| 老挝语 | lo | 希伯来语 | he |
| 尼泊尔语 | ne | 普什图语 | ps |
| 塔吉克语 | tg | 土库曼语 | tk |
| 格鲁吉亚语 | ka | 阿塞拜疆语 | az |
| 塞尔维亚语 | sr | 匈牙利语 | hu |
| 高棉语 | km | 克罗地亚语 | hr |
| 立陶宛语 | lt | 斯洛伐克语 | sk |
| 拉脱维亚语 | lv | 斯洛文尼亚语 | sl |
| 丹麦语 | da | 芬兰语 | fi |
| 挪威语 | no | 泰卢固语 | te |
| 爪哇语 | jw | 加泰罗尼亚语 | ca |
| 冰岛语 | is | 阿姆哈拉语 | am |
| 南非荷兰语 | af | 马拉雅拉姆语 | ml |
| 巽他语 | su | 祖鲁语 | zu |
| 马拉地语 | mr | 蒙古语 - 内蒙 | mncn |
| 朝鲜族语 | kor | 卢旺达语 | rw |
| 卡比尔语 | kab | 卢甘达语 | lg |
| 白俄罗斯语 | be | 彝语 | ii |
| 威尔士语 | cy | 巴斯克语 | eu |
| 鞑靼语 | tt | 阿萨姆语 | as |
| 库尔迪什(库尔德语) | ku | 马其顿语 | mk |
| 爱沙尼亚语 | et | 马达加斯加语 | mg |
| 索马里语 | so | 约鲁巴语 | yo |
| 巴什基尔语 | ba | 海地语 | ht |
| 林加拉语 | ln | 信德省语 | sd |
| 马耳他语 | mt | 卢森堡语 | lb |
| 阿尔巴尼亚语 | sq | 加利西亚语 | gl |
| 吉尔吉斯语 | ky | 古吉拉特语 | gu |
| 卡纳达语 | kn | 旁遮普语 | pa |
| 爱尔兰语 | ga | 博杰普尔语 | bho |
| 弗拉芒语 | flem |
# 八、常见问题
# 大模型多语种语音识别与语音听写的区别?
答:大模型多语种语音识别基于大模型进行的训练,数据量更丰富,听写效果上限更高,未来发展性更强。
# 大模型多语种语音识别支持多少分钟的音频识别?
答:支持1分钟以内的音频识别。