问题标签 [feature-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
14471 浏览

machine-learning - 为什么我们在主成分分析期间最大化方差?

我试图通读 PCA 并看到目标是最大化方差。我不太明白为什么。对其他相关主题的任何解释都会有所帮助

0 投票
1 回答
640 浏览

image-processing - 从图像元数据中提取特征

我正在解决一个安全问题,我正在尝试识别恶意图像。我必须从图像中挖掘属性(很可能来自元数据),这些属性可以输入到 Weka 以运行各种机器学习算法,以检测恶意图像。

由于图像元数据可能以各种不同的方式被破坏,我发现很难识别要在图像元数据中查看的特征,我可以为学习算法量化这些特征。

我之前曾使用 ImageJ 等工具使用像素信息等信息来帮助我对图像进行分类,但是我正在寻找一种更好的方法(关于安全性)来识别和量化图像/图像元数据中的特征。

对工具和功能有什么建议吗?

0 投票
1 回答
4726 浏览

python - 在 scikit-learn 中组合特征提取类

我正在使用sklearn.pipeline.Pipeline链接特征提取器和分类器。有没有办法并行组合多个特征选择类(例如来自 的那些sklearn.feature_selection.text)并加入它们的输出?

我的代码现在如下所示:

结果如下:

我希望能够指定如下所示的管道:

0 投票
3 回答
12353 浏览

android - Android AudioRecord 和 MediaRecorder

我正在开发一个音频处理应用程序,我需要在其中录制音频,然后对其进行处理以获得该录音的功能。但是,我希望使用 MediaPlayer 播放可播放格式的音频。

我已经看到要录制音频以进行处理,最好使用 AudioRecord,因为我可以从那里获取原始音频。但是我不能以可播放的格式将数据写入文件(在 android 中是否有任何库可以做到这一点?)。

我使用这种方法记录原始数据,然后将其写入文件: http ://andrewbrobinson.com/2011/11/27/capturing-raw-audio-data-in-android/ 但是当我尝试播放这个文件时在设备上,它无法播放。

然后,如果我使用 MediaRecorder,我不知道如何解码数据以提取特征。我一直在看 MediaExtractor,但它似乎 MediaExtractor 不解码帧。

那么.. 最好的方法是什么?我想这在任何音频处理应用程序中都很常见,但我无法找到管理它的方法。

感谢您的回复。

0 投票
1 回答
428 浏览

neural-network - 除了图像的下采样二进制网格之外,我还可以将哪些功能用于手写 OCR?

嗨,我一直在搜索有关哪些特征对我有好处的研究论文,以用于我的手写 OCR 分类神经网络。我是一个初学者,所以我一直只是拍摄手写字符的图像,在它周围制作一个边界框,然后将其调整为 15x20 二进制图像。所以这意味着我有一个包含 300 个特征的输入层。从我在谷歌上找到的论文(其中大部分都很旧)中,方法确实有所不同。仅使用图像的二进制网格,我的准确性还不错,但是我想知道是否有人可以使用其他功能来提高准确性。甚至只是指出我正确的方向。我真的很感激!

谢谢,扎克

0 投票
1 回答
1271 浏览

android - 计算密集关键点的描述符

在 OpenCV4Android 中,我使用了 DENSE 特征检测器,它在图像上放置了一个点网格。接下来,我想计算这些关键点的描述符。为此,我尝试使用 ORB 描述符提取器。

现在,当输出时pointsmat0.totaldescriptors0.rows()这些数量应该相等,因为描述符提取器应该删除无法计算描述符的关键点。然而,这种情况并非如此。

我得到:

我试过使用简要描述符提取器,但这有同样的问题。所以,DENSE+ORB / DENSE+BRIEF 就有这个问题。

当我使用 ORB+ORB 运行此示例时,关键点的数量等于描述符的数量(两者均为 500)。所以,问题是:哪个描述符提取器可以与 DENSE 一起使用?

0 投票
1 回答
1885 浏览

feature-extraction - 如何处理 tf-idf 中非常不常见的术语?

我正在实现一个天真的“关键字提取算法”。我是自学成才的,所以我缺乏一些在线文学中常见的术语和数学。

因此,我正在查找文档的“最相关关键字”:

  1. 我计算每个术语在当前文档中使用的频率。我们称之为tf
  2. 我查看了这些术语在整个文档数据库中的使用频率。我们称之为df
  3. 我通过r = tf / df计算每个术语的相关权重r

每个文档都是语料库的适当子集,因此没有文档包含不在语料库中的术语。这意味着我不必担心被零除。

我按它们的r对所有术语进行排序,并保留许多最重要的术语。这些是与本文档最密切相关的顶级关键字。本文档中常用的术语更为重要。在整个文档数据库中通用的术语不太重要。

我相信这是tf-idf的一种幼稚形式。

问题是,当术语在整个数据库中非常罕见但出现在当前文档中时,它们的r值似乎太高了。

由于样本量小,这可以被认为是某种人工制品。弥补这一点的最佳方法或通常方法是什么?

  • 丢弃在整个数据库中不常见于某个阈值的术语。如果是这样,该阈值是如何计算的?似乎它取决于太多因素而不能成为硬编码值。
  • 可以通过某种数学函数(例如平方反比或余弦)对其进行加权或平滑吗?

我已经尝试在网上搜索并阅读tf-idf,但我发现的大部分内容都是比较文档,我对此并不感兴趣。此外,其中大多数的解释与行话和公式的比例都很低。

(事实上​​,我的项目是对这个问题的概括。我真的在 Stack Exchange 网站上使用标签,所以术语的总数很少,停用词无关紧要,低使用率的标签可能比低使用率的词更常见在标准情况下。)

0 投票
2 回答
2133 浏览

image-processing - 图像中的自动植物群检测

我的图像数据集来自http://www.image-net.org。对于不同的事物,如植物群、动物群、人等,有各种同义词集,
我必须训练一个分类器,如果图像属于花卉同义词集,则预测为 1,否则为 0。
属于花卉同义词集的图像可以在http://www.image-net.org/explore上查看,通过单击左侧窗格中的植物、植物、植物生命选项。

这些图像包括各种各样的植物群——如树木、草本植物、灌木、花卉等。我无法弄清楚要使用哪些特征来训练分类器。这些图像中有很多绿色植物,但有很多花卉图像,没有太多绿色成分。另一个特点是叶子和花瓣的形状。

如果有人能建议如何提取这个形状特征并用它来训练分类器,那将会很有帮助。还建议可以使用哪些其他特征来训练分类器。
提取特征后,要使用哪种算法来训练分类器?

0 投票
1 回答
202 浏览

image-processing - 将低分辨率图像或模糊不清的图像整合到一张精确的照片中?算法?线性规划?

假设只有 1MB 的相机会产生一些可读的书面文字照片。现在,HDRI 能够去除阴影,有时比单独制作照片效果更好。我的朋友说,将来可以使模糊甚至低分辨率的图像变得精确。实际上意味着较差的 APS 功能设备可以拍摄非常好的照片,此处为 APS 。现在是什么算法可以将来自同一对象的 10 张模糊/差的图片从稍微不同的角度变成一张精确的图片?它是如何完成的,我在哪里可以找到有关此的更多信息?

我经常遇到不同设备的问题,例如 iPad 2、手机摄像头等。我想找到一些处理此类照片的通用方法以及如何做?而这种通常是3D的案例有哪些问题呢?是否存在现成的线性规划简化算法?

0 投票
2 回答
4165 浏览

javascript - 使用 Javascript 进行特征提取

我想知道是否有任何用于使用 Javascript 进行图像特征提取的开源或免费库?我正在开发一个需要使用像 SIFT 这样的算法的应用程序。在 JS 中很难实现,我在 JS 中找不到好的 SIFT 实现。如果不存在,我想在 JS 中实现一个特征提取库。请任何人帮助我找到一个好的解决方案或指导我从头开始写一个。

谢谢,克山。