问题标签 [text-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
144 浏览

annotations - 我如何使用 GATE annie 将整个段落(或正文)标记为注释。

我如何将整个正文标记为注释(Gate Annie)。例如,我正在尝试对推文进行分类。我想将推文分类为正面或负面推文。手动标记它非常耗时。是否可以使用 Jape 进行此活动?标记的推文将用于机器学习。

0 投票
4 回答
2493 浏览

machine-learning - 可扩展或在线核外多标签分类器

在过去的 2-3 周里,我一直在为这个问题绞尽脑汁。我有一个多标签(不是多类)问题,其中每个样本都可以属于多个标签。

我有大约 450 万个文本文档作为训练数据,大约 100 万个作为测试数据。标签约为 35K。

我正在使用scikit-learn。对于特征提取,我之前使用的是 TfidfVectorizer,它根本无法扩展,现在我使用的是 HashVectorizer,它更好,但考虑到我拥有的文档数量,它的可扩展性并不高。

SKlearn 提供了一个 OneVsRestClassifier,我可以将任何估算器输入其中。对于多标签,我发现 LinearSVC 和 SGDClassifier 只能正常工作。根据我的基准,SGD 在内存和时间上都优于 LinearSVC。所以,我有这样的东西

但这存在一些严重的问题:

  1. OneVsRest 没有 partial_fit 方法,这使得核外学习成为不可能。有没有其他选择?
  2. HashingVectorizer/Tfidf 都在单核上工作并且没有任何 n_jobs 参数。散列文档花费了太多时间。任何替代方案/建议?n_features 的值也正确吗?
  3. 我测试了 100 万份文档。散列需要 15 分钟,当涉及到 clf.fit(X, y) 时,我收到 MemoryError,因为 OvR 内部使用 LabelBinarizer 并且它试图分配一个几乎不可能分配的维度矩阵(yx 类)。我应该怎么办?
  4. 还有其他任何具有可靠且可扩展的多标签算法的库吗?我知道 genism 和 mahout,但他们都没有任何多标签情况?
0 投票
0 回答
395 浏览

java - Weka 最简单的分类器

我正在训练使用 Weka 朴素贝叶斯对文本进行分类。我用这两个短语训练了分类器: en "Hello" it "La casaè"

这个想法是为每个 n-gram 大小 (1<= n <= 5) 创建一个分类器,然后将结果计算为每种语言的每个分类器的概率的加权和。

训练具有特定 n-gram 大小的分类器的代码如下:

如果我尝试对文本“casa”进行分类,结果是:

谁知道为什么意大利班的概率随着 n-gram 的大小而缩小,而英语班的概率却在增长?

我的观点恰恰相反。

谢谢

0 投票
1 回答
878 浏览

python - 文本分类的特征选择

我正在研究一个文本分类问题,其中选择 100 个最常用的单词作为特征。我相信如果我使用更好的特征选择方法,结果会得到改善吗?有任何想法吗?TF-IDF 可以工作吗?如果是,那么如何?

0 投票
1 回答
1768 浏览

classification - 将网页转换为 ARFF 文件以进行 Weka 分类

我想使用 weka 对 10 个网页进行分类。如何将网页转换为 Weka 的 ARFF 文件格式?我是否需要将所有 10 页转换为一个 ARFF 文件,或者我是否需要为每个网页转换 ARFF 文件,即 10 个 ARFF 文件。

0 投票
3 回答
11700 浏览

scikit-learn - 哪些算法用于一类分类?

我有超过 15000 个特定主题的文本文档。我想在前者的基础上建立一个语言模型,这样我就可以向这个模型展示各种主题的新随机文本文档,并且算法会判断新文档是否属于同一主题。

我试过了sklearn.naive_bayes.MultinomialNBsklearn.svm.classes.LinearSVC还有其他的,但是我有以下问题:

这些算法需要具有多个标签或类别的训练数据,而我只有涵盖特定主题的网页。其他文档没有标记并且有许多不同的主题。

我将不胜感激有关如何训练只有一个标签的模型或一般如何进行的任何指导。到目前为止,我所拥有的是:

非常感谢。

0 投票
2 回答
3286 浏览

data-mining - 使用 n-gram 模型的自动文本分类

嗨,我是数据挖掘的新手。我的任务是使用 n-gram 方法对文本文档进行自动分类。

我找不到关于这个主题的合适资源,请帮助我如何继续这个主题,我在哪里可以找到基于 n-gram 分类的教程。

为了我的理解,我需要关于这个主题的 java 源代码。

提前致谢。

0 投票
2 回答
5583 浏览

machine-learning - N-gram 与文本分类中的其他分类器

我是文本分类技术的新手,我想知道用于文本分类的 N-gram 方法与其他基于分类器(决策树、KNN、SVM)的文本分类之间的区别。

我想知道哪个更好,n-gram 是否属于分类器?n-gram 是否克服了分类器技术的任何缺点?

我在哪里可以获得有关所有这些技术的比较信息。

提前致谢。

0 投票
3 回答
8050 浏览

machine-learning - 处理多标签分类中的类不平衡

我已经看到了一些关于多类设置中类不平衡的问题。但是,我有一个多标签问题,那么在这种情况下您将如何处理呢?

我有一组大约 300k 的文本示例。正如标题中提到的,每个示例至少有一个标签,并且只有 100 个可能的唯一标签。我通过利用命名空间将这个问题简化为 Vowpal Wabbit 的二进制分类,例如

从:

至:

我正在使用大众提供的默认选项(我认为是在线 SGD,具有平方损失函数)。我使用平方损失,因为它非常类似于汉明损失。

训练后,在同一训练集上进行测试时,我注意到所有示例都使用“0”标签进行预测......我猜这是最小化损失的一种方法。在这一点上,我不知道该怎么办。我正在考虑使用成本敏感的一对多分类来尝试平衡类,但是将多标签减少到多类是不可行的,因为存在 2^100 个标签组合。我想知道是否还有其他人有任何建议。

编辑:我终于有机会测试类不平衡,特别是对于vw. vw对不平衡的处理非常糟糕,至少对于高维、稀疏的文本特征来说是这样。我尝试了从 1:1 到 1:25 的比例,但在 1:2 的比例下性能会突然下降。

0 投票
1 回答
372 浏览

java - 字符串含义识别/模式识别

有谁知道是否有一些库可以解决这个问题:

我有一组字符串,例如屏幕分辨率,周围有一些文字:

然后我得到另一个字符串,如 800x600 或只是“Retina”,我想检索一些数字,它表示该字符串表示屏幕分辨率的概率(该值不必在集合中)。

更具体地说,考虑到我有更多的分类,而不仅仅是屏幕分辨率。以 CPU 的频率、RAM 的 MB/GB 等为例。所以解决方案应该更通用,当然还有一些学习能力。