您可以通过创建服务器并使用异步请求/AJAX 或 Web 套接字来回发送请求来实现这一点。
您可以使用以下链接找到服务器安装说明:
https://pypi.org/project/deepspeech-server/
安装服务器后,您可以开始从任何支持“WebRTC API:getUserMedia()”的浏览器发出请求。生成音频 Blob 数据并以 base64 格式发送到后端服务器。在后端,将 blob 保存到临时音频文件中:
$encodedData = base64_decode($data);
// write the data out to the file
$fp = fopen($full_file_path, 'wb');
fwrite($fp, $encodedData);
fclose($fp);
然后通过向您自己的 Mozzila DeepSpeech Node.js 服务器发出 CURL 请求将音频文件转换为文本:
curl -X POST --data-binary @testfile.wav http://localhost:8080/stt
在后端创建方法以循环生成文本并尝试识别关键字/命令。如果触发将其发送回前端。也许您只是想授予用户使用他们的语音编写长消息的能力?- 每次都返回整个文本。但是,您仍然想“听”关键字,以便让用户能够设置标点符号、开始和结束写作。
祝大家编码愉快;)