问题标签 [audio-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 将 16 位 PCM Wave 数据转换为浮点数的正确方法
我有一个 16 位 PCM 格式的波形文件。我在 a 中获得了原始数据byte[]
和一个提取样本的方法,我需要它们以浮点格式,即 afloat[]
来进行傅立叶变换。这是我的代码,这看起来对吗?我正在使用 Android,所以javax.sound.sampled
等不可用。
java - 音频处理服务器平台
我正在尝试构建一个服务器来处理来自传入 UDP 连接的音频。我需要能够做一些事情,比如改变输入流的频率(可能是 .wav)、幅度、时移等等,然后实时反馈输出。语言可以是 C/C++/ObjC 或 Java,或两者的组合(如果速度足够快)
到目前为止,我看到的是在几个论坛上提到了 Jack 和 PulseAudio。但是,我不知道其中哪一个最适合我的需求。我从一个做音频处理的朋友那里听说这两个框架有一个相当大的代码库。哪个平台最适合我的需求,您会推荐哪个平台?
谢谢你的帮助!
android - Android 麦克风拾取特定音调
您好,我想知道是否可以使用 android 音调生成器类在一个设备中创建音调并在另一台设备中收听相同的音调。如果这是可能的,我还有其他一些问题。
考虑到背景噪音是否可以只听这种特定的音调?
这个过程会占用大量资源吗?
我可以使用人耳听不见或接近它的音调吗?
最后,我可以使用只能在距发送设备几英尺远的地方听到的音调吗?
非常感谢你们的时间男孩和女孩:)
编辑 > 感谢您添加音频处理标签 sabastian。更好的描述。
c# - 声学音频比较库
我需要一个处理音频比较的软件或库,但不使用 mp3 内部的标签,它应该比较 2 个音频文件之间的相似性或置信度,或者如果我从音频文件中剪下一段,软件应该指出那个位置来自主音频文件的文件令牌(我希望我足够清楚)。
所以我听说这项技术叫做Audio Acoustic Comparing,基于一些音频样本文件,我们可以称之为指纹。如果软件在文件的某处找到输入样本或指纹的等价物,它应该指出我。
最好的。
python - 使用 Python 对音频/视频进行隐写术
我想使用 Python 将消息嵌入到音频/视频文件中。有没有人知道一些我可以用来在音频/视频中进行位操作的库的信息?
c++ - 获取 wavin lib 在 C++ 中捕获的音频信号的幅度(或 rms 电压)。?
我正在研究一个非常基本的机器人项目,并希望在其中实现语音识别。我知道这是一件复杂的事情,但我只想为 3 或 4 个命令(或单词)做这件事。
我知道使用 wavin 我可以录制音频。但我希望对音频信号进行实时幅度分析,怎么做呢,波形将作为 8 位单声道输入。
我曾考虑将信号划分为一组特定时间,进一步将其划分为更小的子集,获取子集的平均 rms 值,然后将它们相加,然后查看它们与实际存储的信号有多大不同。如果错误低于所有(或大多数)集合的可接受值,然后打印该单词。
如何实施?如果您也可以提供任何其他建议,那就太好了。
提前致谢。
linux - 如何将口语音频与参考录音进行比较 - 语言学习
我正在寻找一种将用户提交的录音与参考录音进行比较的方法,以便为某人提供语言学习的分数或百分比。
我意识到这是一种非常不科学的做事方式,而且不仅仅是一种噱头。
我的第一个想法是某种音频指纹识别或波形比较。
我应该在哪里寻找任何想法?
iphone - iPhone AudioQueue - 读取传入的音频数据以确定 BPM
我正在尝试使用声能确定麦克风的每分钟节拍数 (BPM),我想我已经弄清楚了确定 BPM 的部分,但在获取 RAW 数据时遇到了一些麻烦。
该示例基于 Apples SpeakHere 应用程序 - 基于我正在使用的 AudioQueue 回调函数:
但是我得到了一些有趣的值——任何有机会有人可以指出我出错的正确方向,并让我知道我应该返回的范围。
音频格式设置:
干杯,
c# - 使用 BinaryReader 解析 Wave 文件
在 .NET Assembly mscorlib System.IO 命名空间中,我使用 ReadInt16() 方法循环音频数据字节并将有符号整数值转储到文本文件中。如何解释与一个采样率相关的两个值?也就是说,如果我有一秒钟的单声道数据将有 88200 个字节,因此使用 ReadInt16() 返回 88200 个离散整数。这信息太多了,我应该只有 44100 个整数。所以我是否需要使用不同的方法,或者每次迭代将循环提前 1 次。
非常感谢........米奇
.net - .NET 解决方案,用于创建播放速度减慢的 MP3,并保留音高
我有一个部分在 .NET 中的工作解决方案,它采用 MP3 文件(人声音频)并以较慢的播放速率保存 MP3 版本,同时保留音调。我找到了一个解决方案,可以在一定程度上保留音高,尽管音频保真度不是很好。是否有其他解决方案需要更少的组件来完成我正在做的事情,是否有解决方案可以在保持音高的同时保持更高水平的音频保真度?
我正在寻找更少的移动部件以获得更大的可扩展性。
此时我使用nAudio将MP3转换为Wav,然后使用SoundTouch降低Wav的播放速度,然后使用LAME将Wav编码回MP3。
谢谢山