python - Project Oxford Speaker Recognition - 无效的音频格式

Question

我一直在尝试使用 Project Oxford Speaker Recognition API（https://dev.projectoxford.ai/docs/services/563309b6778daf02acc0a508/operations/5645c3271984551c84ec6797）。

我已经成功地录制了麦克风上的声音，并将其转换为所需的 WAV(PCM,16bit,16K,Mono)。

问题是当我尝试将此文件作为二进制流发布到 API 时，它会返回 Invalid audio format 错误消息。

网站上的演示（ https://www.projectoxford.ai/demo/SPID ）接受了相同的文件。

我正在使用带有此代码的 python 2.7。

import httplib
import urllib
import base64
import json
import codecs

headers = {
    # Request headers
    'Content-Type': 'application/octet-stream',
    'Ocp-Apim-Subscription-Key': '{KEY}',
}

params = urllib.urlencode({
})


def enroll(audioId):
    conn = httplib.HTTPSConnection('api.projectoxford.ai')
    file = open('test.wav','rb')
    body = file.read()
    conn.request("POST", "/spid/v1.0/verificationProfiles/" + audioId +"/enroll?%s" % params, str(body), headers)
    response = conn.getresponse()
    data = response.read()
    print data
    conn.close()
    return data

这就是我得到的回应。

{
    "error": {
        "code": "BadRequest",
        "message": "Invalid Audio Format"
    }
}

请如果有人可以指导我了解我所缺少的内容。我已经验证了音频文件的所有属性和 API 所需的要求，但没有运气。

感谢所有答案和评论。

score 2 · Accepted Answer

我用我的 ruby 测试程序将此文件发送到 Project oxford，它工作正常。我认为问题可能出在您发送的其他参数中。尝试将“内容类型”标题更改为“音频/wav；samplerate=1600' 这是我使用的标头。我还发送了一个带有文件大小的“内容长度”标头。我不确定是否需要“内容长度”，但包含它是一个很好的标准。

python - Project Oxford Speaker Recognition - 无效的音频格式

1 回答 1

Related

Reference