问题标签 [feature-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 为什么我们在主成分分析期间最大化方差?
我试图通读 PCA 并看到目标是最大化方差。我不太明白为什么。对其他相关主题的任何解释都会有所帮助
image-processing - 从图像元数据中提取特征
我正在解决一个安全问题,我正在尝试识别恶意图像。我必须从图像中挖掘属性(很可能来自元数据),这些属性可以输入到 Weka 以运行各种机器学习算法,以检测恶意图像。
由于图像元数据可能以各种不同的方式被破坏,我发现很难识别要在图像元数据中查看的特征,我可以为学习算法量化这些特征。
我之前曾使用 ImageJ 等工具使用像素信息等信息来帮助我对图像进行分类,但是我正在寻找一种更好的方法(关于安全性)来识别和量化图像/图像元数据中的特征。
对工具和功能有什么建议吗?
python - 在 scikit-learn 中组合特征提取类
我正在使用sklearn.pipeline.Pipeline
链接特征提取器和分类器。有没有办法并行组合多个特征选择类(例如来自 的那些sklearn.feature_selection.text
)并加入它们的输出?
我的代码现在如下所示:
结果如下:
我希望能够指定如下所示的管道:
android - Android AudioRecord 和 MediaRecorder
我正在开发一个音频处理应用程序,我需要在其中录制音频,然后对其进行处理以获得该录音的功能。但是,我希望使用 MediaPlayer 播放可播放格式的音频。
我已经看到要录制音频以进行处理,最好使用 AudioRecord,因为我可以从那里获取原始音频。但是我不能以可播放的格式将数据写入文件(在 android 中是否有任何库可以做到这一点?)。
我使用这种方法记录原始数据,然后将其写入文件: http ://andrewbrobinson.com/2011/11/27/capturing-raw-audio-data-in-android/ 但是当我尝试播放这个文件时在设备上,它无法播放。
然后,如果我使用 MediaRecorder,我不知道如何解码数据以提取特征。我一直在看 MediaExtractor,但它似乎 MediaExtractor 不解码帧。
那么.. 最好的方法是什么?我想这在任何音频处理应用程序中都很常见,但我无法找到管理它的方法。
感谢您的回复。
neural-network - 除了图像的下采样二进制网格之外,我还可以将哪些功能用于手写 OCR?
嗨,我一直在搜索有关哪些特征对我有好处的研究论文,以用于我的手写 OCR 分类神经网络。我是一个初学者,所以我一直只是拍摄手写字符的图像,在它周围制作一个边界框,然后将其调整为 15x20 二进制图像。所以这意味着我有一个包含 300 个特征的输入层。从我在谷歌上找到的论文(其中大部分都很旧)中,方法确实有所不同。仅使用图像的二进制网格,我的准确性还不错,但是我想知道是否有人可以使用其他功能来提高准确性。甚至只是指出我正确的方向。我真的很感激!
谢谢,扎克
android - 计算密集关键点的描述符
在 OpenCV4Android 中,我使用了 DENSE 特征检测器,它在图像上放置了一个点网格。接下来,我想计算这些关键点的描述符。为此,我尝试使用 ORB 描述符提取器。
现在,当输出时pointsmat0.total
,descriptors0.rows()
这些数量应该相等,因为描述符提取器应该删除无法计算描述符的关键点。然而,这种情况并非如此。
我得到:
我试过使用简要描述符提取器,但这有同样的问题。所以,DENSE+ORB / DENSE+BRIEF 就有这个问题。
当我使用 ORB+ORB 运行此示例时,关键点的数量等于描述符的数量(两者均为 500)。所以,问题是:哪个描述符提取器可以与 DENSE 一起使用?
feature-extraction - 如何处理 tf-idf 中非常不常见的术语?
我正在实现一个天真的“关键字提取算法”。我是自学成才的,所以我缺乏一些在线文学中常见的术语和数学。
因此,我正在查找文档的“最相关关键字”:
- 我计算每个术语在当前文档中使用的频率。我们称之为tf。
- 我查看了这些术语在整个文档数据库中的使用频率。我们称之为df。
- 我通过r = tf / df计算每个术语的相关权重r。
每个文档都是语料库的适当子集,因此没有文档包含不在语料库中的术语。这意味着我不必担心被零除。
我按它们的r对所有术语进行排序,并保留许多最重要的术语。这些是与本文档最密切相关的顶级关键字。本文档中常用的术语更为重要。在整个文档数据库中通用的术语不太重要。
我相信这是tf-idf的一种幼稚形式。
问题是,当术语在整个数据库中非常罕见但出现在当前文档中时,它们的r值似乎太高了。
由于样本量小,这可以被认为是某种人工制品。弥补这一点的最佳方法或通常方法是什么?
- 丢弃在整个数据库中不常见于某个阈值的术语。如果是这样,该阈值是如何计算的?似乎它取决于太多因素而不能成为硬编码值。
- 可以通过某种数学函数(例如平方反比或余弦)对其进行加权或平滑吗?
我已经尝试在网上搜索并阅读tf-idf,但我发现的大部分内容都是比较文档,我对此并不感兴趣。此外,其中大多数的解释与行话和公式的比例都很低。
(事实上,我的项目是对这个问题的概括。我真的在 Stack Exchange 网站上使用标签,所以术语的总数很少,停用词无关紧要,低使用率的标签可能比低使用率的词更常见在标准情况下。)
image-processing - 图像中的自动植物群检测
我的图像数据集来自http://www.image-net.org。对于不同的事物,如植物群、动物群、人等,有各种同义词集,
我必须训练一个分类器,如果图像属于花卉同义词集,则预测为 1,否则为 0。
属于花卉同义词集的图像可以在http://www.image-net.org/explore上查看,通过单击左侧窗格中的植物、植物、植物生命选项。
这些图像包括各种各样的植物群——如树木、草本植物、灌木、花卉等。我无法弄清楚要使用哪些特征来训练分类器。这些图像中有很多绿色植物,但有很多花卉图像,没有太多绿色成分。另一个特点是叶子和花瓣的形状。
如果有人能建议如何提取这个形状特征并用它来训练分类器,那将会很有帮助。还建议可以使用哪些其他特征来训练分类器。
提取特征后,要使用哪种算法来训练分类器?
image-processing - 将低分辨率图像或模糊不清的图像整合到一张精确的照片中?算法?线性规划?
假设只有 1MB 的相机会产生一些可读的书面文字照片。现在,HDRI 能够去除阴影,有时比单独制作照片效果更好。我的朋友说,将来可以使模糊甚至低分辨率的图像变得精确。实际上意味着较差的 APS 功能设备可以拍摄非常好的照片,此处为 APS 。现在是什么算法可以将来自同一对象的 10 张模糊/差的图片从稍微不同的角度变成一张精确的图片?它是如何完成的,我在哪里可以找到有关此的更多信息?
我经常遇到不同设备的问题,例如 iPad 2、手机摄像头等。我想找到一些处理此类照片的通用方法以及如何做?而这种通常是3D的案例有哪些问题呢?是否存在现成的线性规划简化算法?
javascript - 使用 Javascript 进行特征提取
我想知道是否有任何用于使用 Javascript 进行图像特征提取的开源或免费库?我正在开发一个需要使用像 SIFT 这样的算法的应用程序。在 JS 中很难实现,我在 JS 中找不到好的 SIFT 实现。如果不存在,我想在 JS 中实现一个特征提取库。请任何人帮助我找到一个好的解决方案或指导我从头开始写一个。
谢谢,克山。