0 投票

1 回答

1598 浏览

nltk - 互联网文章和社交媒体的层次分类+主题模型训练数据

我想按主题对大量基于互联网的小型文章（推文、博客文章、新闻等）进行分类（100K 到 1M+）。为了实现这个目标，我一直在寻找可用于构建分类器模型的标记训练数据文档。为了使这篇文章最有用，以下是我发现的一些可能的来源：

a) www.freebase.com/internet/website/category?instances=

b) wikipedia-miner.cms.waikato.ac.nz（访问维基百科数据的工具包）

c) en.wikipedia.org/wiki/Wikipedia:Database_download

d) wiki.dbpedia.org/About（属于类别的 SKOS 格式主题关键字）

e) 互联网搜索大型文章集，然后进行聚类和手动管理

问题 1：是否有额外的互联网资源可以提供带标签的培训文件？给定主题的关键字集，尤其是加权集也很有用

理想情况下，我想构建一个分类器，该分类器将返回分层类别，并且随着更多的兴趣/数据变得可用，可以在以后添加子主题详细信息。

问题 2：是否有分层结构的主题建模/分类框架（也可能是可扩展的）？一个代码示例将特别受欢迎

非常感谢

更新：

路透社语料库第 1 卷（在 RCV1-v2 上搜索）它是 1990 年代后期的大约 80 万篇路透社文章，按人类分类为主题、行业和地区类别

一个学术联盟 (LDC) 分发各种语料库，包括由纽约时报编译的带有约 150 万个标记文档的语料库： http: //catalog.ldc.upenn.edu/LDC2008T19

2013-11-05T21:40:28.690

0 投票

1 回答

578 浏览

image-processing - 用于车辆检测和跟踪的训练数据的图像分辨率？

我是计算机视觉的新手。我正在进行一个研究项目，其目标是（1）从图像和视频中检测车辆，然后是（2）能够跟踪移动的车辆。

我正处于收集训练数据的初始阶段，我真的很关心获得具有最佳分辨率的图像以进行检测和跟踪。

有任何想法吗？我得到的当前数据集（来自过去的项目）具有大约 1200x600 像素的图像。但有人告诉我，这可能是也可能不是检测和跟踪任务的最佳分辨率。除了考虑我将从图像中提取类似 haar 的特征这一事实之外，我想不出在做出分辨率决定时要考虑的任何因素。在这种情况下，对于训练数据图像应该有什么好的分辨率有什么想法吗？

image-processing computer-vision resolution object-detection training-data

2013-11-07T06:43:34.703

0 投票

1 回答

1729 浏览

opencv - 60x60 检测窗口的合理训练图像大小？

我将训练级联增强分类器（使用 OpenCV 或 Matlab）来检测某些对象。

我的问题是，对于 60x60 的窗口检测大小，什么是训练图像样本的合理分辨率，因为我没有无限的时间来训练分类器？我得到的一些图像是 1200x600，我很确定这是不必要的大，我必须缩小它们。我知道测试数据集可能有那么大的图像或视频，但其中要检测的对象肯定不可能那么大。

opencv computer-vision object-detection training-data matlab-cvst

2013-11-11T14:40:06.360

0 投票

1 回答

2064 浏览

computer-vision - 关于为级联分类器准备训练数据集时的图像背景

我有一个关于为将用于对象检测的级联分类器准备正样本数据集的问题。

作为正样本，我得到了 3 组图像：

一组全尺寸（约 1200x600）彩色图像，背景为白色，每个图像中的对象以不同的角度显示
另一组具有相同灰度和白色背景的图像，按比例缩小到检测窗口大小（60x60）
另一组具有相同灰度图像和黑色背景的图像，按比例缩小到检测窗口大小（60x60）

我的问题是，在第一组中，背景真的应该是白色的吗？它不应该是可能在测试数据集中找到对象的环境吗？或者我应该有第四组图像在他们的自然环境中？环境如何影响训练样本？

computer-vision classification object-detection training-data matlab-cvst

2013-11-12T05:45:17.363

0 投票

1 回答

180 浏览

opencv - 训练级联分类器，同时包括图像注释作为特征

我了解 OpenCV 的级联分类器对图像进行训练，并使用级联训练器本身从图像中提取的特征。但是是否可以在图像上添加一些注释？例如，我有大约 600 张图像用作正样本来训练分类器，但我需要使用附加特征的短向量来注释每个图像，例如（“鸟瞰图”、“平面图”或“城市背景” ”或“风景背景”）。

是否可以构建一个分类器，将培训师提取的特征与手动提供的注释结合起来？

opencv annotations computer-vision classification training-data

2013-11-13T15:14:48.710

0 投票

2 回答

604 浏览

opennlp - OpenNLP NameFinder 培训，“发现意外注释”

在训练我的 NameFinderME 时，我收到以下错误消息：

我的数据如下所示： <START someTag> some text <END>

Computing event counts... java.io.IOException: Found unexpected annotation:

在谷歌为这个错误消息找到我的所有其他内容中，训练数据的间距始终是一个简单的错误（例如，更改<START:entity>some text<END>为 <START:entity> some text <END>。这不适用于我（它的间距都正确。）都是 UTF-16，并在我设置对象进行训练时指定为这样。关于什么可能是错误的任何想法？

谢谢，

海象猫

opennlp named-entity-recognition training-data

2013-11-20T00:15:04.587

0 投票

0 回答

520 浏览

python - 在 python 中训练模型

我正在尝试学习如何构建模型并在训练集上对其进行训练。我之前在 Python 中使用 MultinomialNB 完成了此操作，但我没有尝试使用一组方程构建自定义模型。有人可以引导我走向正确的方向吗？谢谢您的帮助。

因此，当我使用 MultinomialNB 训练模型时，我使用以下代码。

clf=MultinomialNB()
clf.fit(xtrain, ytrain)

我现在要做的涉及标签预测 A_i 的等式，其中 i 是我为给定帖子预测的标签。我不确定如何使用这个方程 A_i 来训练模型。

python model training-data

2013-11-26T02:46:45.400

0 投票

0 回答

440 浏览

c++ - 某些单词（被训练）无法通过 Tesseract-OCR 识别

我目前正在使用 Tesseract-OCR 识别图片中的一些文字。但是现在我有一个问题。由于有些单词无法识别。我专门训练了它们，它仍然不起作用！

在训练 DAWG 文件等语言数据时，我是否需要一些额外的文件？我对此一无所知。因为有时候在一些特殊的位置和方向上出现的文字，它也能认出其中的几个。

这真是令人困惑。真诚需要您的帮助。提前致谢！

其他信息：

我用的是简体中文。（不知道有没有我用中文的时候没有设置的参数）
因为我想识别的图片是一张桌子。里面有几行。在识别表格以提高准确性时，您对这种情况有什么想法吗？
因为不知道是不是字的特殊形状造成的。我这里直接贴一些词。下午一二三四五

非常感谢！

c++ocr tesseract image-recognition training-data

2013-11-27T03:11:12.747

0 投票

1 回答

611 浏览

r - R中的svm，训练数据集

更一般的问题，但因为我使用的是 R -> 标签

我的训练数据集有 15,000 个条目，其中大约 20 个我想用于正数据集 -> 构建 svm。我想使用剩余的重采样数据集作为我的负数据集，但我想知道，与负数据集采用相同的大小（大约 20）可能会更好，否则它会高度不平衡？在 1000 轮重采样后，是否有一种简单的方法来池化 R 中的分类器（基于集合）？（甚至是e1071包装）

后续问题：我想在之后为每个预测计算一个分数，只取概率乘以 100 可以吗？

谢谢

r machine-learning classification svm training-data

2013-11-30T12:21:44.017

0 投票

1 回答

534 浏览

我想使用 RBM（受限玻尔兹曼机）提取音频特征。为此，我将频谱图（PCA 白化）作为 RBM 的输入。
对于每个音频文件，频谱图是一个没有编号的矩阵。列数固定，但每个音频文件的行数不同。我的问题是如何训练我的 RBM，或者如何使用 RBM 从音频中提取特征，给定这个频谱图矩阵。我在 Honglak Lee 的一篇论文中读到，论文标题为 Unsupervised Feature Learning for Audio Classification using convolutional deep confidence networks。http://machinelearning.wustl.edu/mlpapers/paper_files/NIPS2009_1171.pdf
“然后我们训练了 300 个第一层基础，过滤器长度为 6，最大池化比率为 3。”
首先，这里的基地是什么意思。（他们使用了卷积深度信念网络，所以我想，这里的基数并不意味着权重）。
其次，使用过滤器长度为 6 是什么意思？我该怎么做？任何提示将不胜感激。（我是 RBM 的新手）

audio machine-learning training-data

2013-12-12T19:28:36.780

问题标签 [training-data]

nltk - 互联网文章和社交媒体的层次分类+主题模型训练数据

更新：

image-processing - 用于车辆检测和跟踪的训练数据的图像分辨率？

opencv - 60x60 检测窗口的合理训练图像大小？

computer-vision - 关于为级联分类器准备训练数据集时的图像背景

opencv - 训练级联分类器，同时包括图像注释作为特征

opennlp - OpenNLP NameFinder 培训，“发现意外注释”

python - 在 python 中训练模型

c++ - 某些单词（被训练）无法通过 Tesseract-OCR 识别

r - R中的svm，训练数据集

audio - 使用受限玻尔兹曼机提取音频特征

问题标签 [training-data]

更新：

Reference