问题标签 [feature-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
16625 浏览

image-processing - HoG 特征如何以图形方式表示?

我正在实现“用于人体检测的定向梯度直方图”中的定向梯度直方图特征,我想可视化结果。所有关于这些特性的论文都使用标准的可视化,但我找不到任何关于这些特性是如何生成的描述。我将不胜感激解释或有用的链接。

0 投票
2 回答
1515 浏览

audio - 在java程序中嵌入JAAudio包

是的,伙计们;
我正在做一个关于基于内容的音乐分析(音乐流派分类和相似性测量)如何改进媒体播放器随机播放功能的歌曲选择的最后一年项目(BSc)。我想嵌入 JAudio 来执行特征提取。我从以下位置下载了包:sourceforge.net/projects/jaudio/,我正在使用http://jaudio.sourceforge.net/jaudio10/embedding.html中说明的说明。但是,我遇到了一些问题:

  1. 使用 Batch 类指令说使用 setFeatures(java.io.File[] files) 或 setFetaures(RecordingInfo[] files) 。但是,根据 http://jaudio.sourceforge.net/jaudio10/javadoc/index.html上的 API,没有这样的方法。
  2. 下一步是 Batch.exectue()。但是,这会引发空指针异常。
  3. 此外,当我尝试使用 GUI 时,文件选择器(添加录音)不会加载文件(.wav)

我真的很想在我的项目中使用 JAudio。但是,由于上述原因,我无法做到。首先,我想知道是否有人尝试过嵌入 JAudio 并遇到同样的问题。如果没有,是否有人知道提取相似特征的替代程序包?


我要提前感谢您的帮助。

0 投票
1 回答
3863 浏览

c++ - OpenCV HOG 特征数据布局?

我正在使用 OpenCV 的 CPU 版本的 Histogram of Oriented Gradients ( HOG )。我正在使用 32x32 图像,其中包含 4x4 单元格、4x4 块、块之间没有重叠和 15 个方向箱。OpenCVHOGDescriptor给了我一个长度为 960 的一维特征向量。这是有道理的,因为(32*32 像素)*(15 个方向)/(4*4 单元)= 960。

但是,我不确定这 960 个数字是如何在内存中排列的。我的猜测是它是这样的:

当然,这是一个扁平化为 1D 的 2D 问题,所以它实际上看起来像这样:

那么,我对数据布局有正确的想法吗?或者是别的什么?


这是我的示例代码:


相关资源: 这篇 StackOverflow 帖子本教程帮助我开始使用 OpenCV HOGDescriptor。

0 投票
2 回答
931 浏览

image-processing - 梯度压缩直方图 (CHoG)

我试图从斯坦福移动视觉搜索出版物中了解低比特率描述符压缩梯度直方图 (CHoG) 的实现。OpenCV 中是否有任何可用的开源代码?

0 投票
5 回答
30170 浏览

python - 文本分类的特征选择和减少

我目前正在做一个项目,一个简单的情绪分析器,这样在不同的情况下会有2 个和 3 个类。我正在使用一个包含非常丰富独特单词(大约 200.000)的语料库。我使用词袋方法进行特征选择并减少独特特征的数量,由于出现频率的阈值而进行了消除。最终的特征集包括大约 20.000 个特征,实际上减少了 90%,但还不够用于测试预测的预期准确性。我依次使用LibSVMSVM-light进行训练和预测(包括线性RBF 内核)以及一般的PythonBash

到目前为止观察到的最高准确度约为 75%,我至少需要 90%。这是二进制分类的情况。对于多类训练,准确率下降到~60%。在这两种情况下我都需要至少 90%并且不知道如何增加它:通过优化训练参数通过优化特征选择

我读过关于文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性。这些方法如下:

  • 词袋的频率方法(BOW)
  • 信息增益(IG)
  • X^2 统计量 (CHI)

第一种方法我已经在用了,但是我用的很简单,需要指导才能更好地使用它,以获得足够高的精度。我也缺乏关于IGCHI实际实施的知识,并寻求任何帮助来指导我。

非常感谢,如果您需要任何其他信息以寻求帮助,请告诉我。


  • @larsmans:频率阈值:我正在寻找示例中唯一单词的出现,这样如果一个单词在不同示例中出现的频率足够高,它就会作为唯一特征包含在特征集中。

  • @TheManWithNoName:首先感谢您为解释文档分类的一般问题所做的努力。我检查并试验了你提出的所有方法和其他方法。我发现比例差(PD) 方法最适合特征选择,其中特征是 uni-grams 和用于加权的术语存在(TP ) IDF)作为一种索引方法,我宁愿将其视为一种特征加权方法)。 正如您所提到的,预处理也是此任务的一个重要方面。我使用某些类型的字符串消除来优化数据以及形态解析词干。另请注意,我正在研究土耳其语,与英语相比,它具有不同的特征。最后,对于二元分类,我设法达到了~88% 的准确度(f-measure),对于多类,我达到了~84%。这些值是我使用的模型成功的有力证明。这是我到目前为止所做的。现在致力于聚类和缩减模型,已经尝试过LDALSI,并转向moVMF球形模型(LDA + moVMF),这似乎更适用于具有客观性质的语料库,如新闻语料库。如果您对这些问题有任何信息和指导,我将不胜感激。我特别需要信息来设置特征空间降维方法(LDA、LSI、moVMF 等)和聚类方法(k-means、分层等)之间的接口(面向 python、开源)。

0 投票
1 回答
4004 浏览

image - 如何在 scikit-learn(用于计算机视觉)中使用我自己的数据集?

如何在 scikit-learn 中使用我自己的数据集?Scikit Tutorial总是以加载他的数据集(数字数据集,花卉数据集......)为例

http://scikit-learn.org/stable/datasets/index.html 即:从 sklearn.datasets 导入 load_iris

我有我的图像,但我不知道如何创建新图像。

特别是,对于开始,我使用我找到的这个例子(我使用库 opencv):

我想提取一组图像的特征,以一种对实现机器学习算法有用的方式!

0 投票
1 回答
42481 浏览

opencv - 如何使用 OpenCV 计算局部二进制模式直方图?

我已经看到 OpenCV 提供了一个基于 LBP直方图的分类器:

但我想访问 LBP 直方图本身。例如:

在 OpenCV 中是否有任何功能可以执行此操作?

0 投票
5 回答
5421 浏览

machine-learning - 如何使用动态大小的输入集合解决机器学习问题?

我正在解决一个问题,试图通过机器学习将数据样本分类为质量好坏。

数据样本存储在关系数据库中。样本包含属性 id、名称、赞成票数(用于表示好/坏质量的指示)、评论数等。还有一个表,其中包含指向数据样本 id 的外键的项目。这些项目包含重量和名称。指向数据样本的所有项目共同表征数据样本,这通常有助于对数据样本进行分类。问题是,指向一个外键的项目数对于不同的样本是不同的。

我想为机器学习输入(例如神经网络)提供指向特定数据样本的项目。问题是我不知道项目的数量,所以我不知道我想要多少个输入节点。

Q1) 当输入维度是动态的时候,是否可以使用神经网络?如果是这样,怎么做?

Q2)当列表的长度未知时,是否有向网络提供元组列表的最佳实践?

Q3) 是否有将机器学习应用于关系数据库的最佳实践?

0 投票
1 回答
163 浏览

affinetransform - 为匹配的 asift 特征恢复模拟仿射变换(Morel 的实现)

有没有人尝试恢复 ASIFT 特征检测器的模拟仿射变换?(来自作者的实现)。在原始论文中,方程 2.2 清楚地恢复了模拟仿射,但我似乎找不到执行此操作的明确点。有没有人尝试过?compute_asift_keypoints.cpp 中的函数 compare_affine_coor1 似乎是我正在寻找的,但比例似乎已标准化,而且执行转换的坐标中心对我来说并不清楚。

0 投票
1 回答
2294 浏览

image - 在 scikit-learn - csv 文件中生成图像特征数据集

我从单个图像中提取 2 个边缘特征(Hog 特征和 sobel 算子)。

如何在 Scikit-learn python 中创建图像特征数据集,如 iris_dataset ?在库中有代表数据集的 csv 文件。仅包含数字的 csv 文件。这些数字是如何产生的?特征提取?

不幸的是,我在这里只看到了一个 java 教程http://www.coccidia.icb.usp.br/coccimorph/tutorials/Tutorial-2-Creating- ...,在 5 点谈论生成训练矩阵(平均和共同方差矩阵)?Scikit 中有什么函数可以生成这些训练数组?