问题标签 [text-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
655 浏览

machine-learning - 文本分类 - 如何找到对决策影响最大的特征

当使用SVMlightLIBSVM为了将短语分类为正面或负面(情绪分析)时,有没有办法确定哪些是影响算法决策的最有影响力的词?例如,发现这个词"good"有助于确定一个短语是积极的,等等。

0 投票
1 回答
3985 浏览

machine-learning - 如何在 Weka 中应用特征缩减方法?

1)如何在weka中应用LSI等特征减少方法进行文本分类?

2)应用LSI等特征减少方法可以提高分类的准确性吗?

0 投票
0 回答
203 浏览

weka - 多项朴素贝叶斯引发错误

1)在 weka 中应用 MultinomialNaivesBayes(不是任何其他分类器)会引发异常“评估分类器的问题:数字属性值必须全部大于或等于零”?如何解决?

2) 降维(PCA、LSI、随机投影)是特征选择(InformationGain、ChiSqr)的替代方法还是我们需要两者都应用?我在互联网上看到了关于他们的相互矛盾的意见?

0 投票
1 回答
47 浏览

performance - 训练文档的数量对分类时间有什么影响?

训练文档的数量对分类时间有影响吗?对于 K-nn,我知道 K-nn 中的所有计算都是在分类中进行的,而在训练中没有或只做最少的工作。支持向量机、朴素贝叶斯、决策树等是否也是如此?

0 投票
2 回答
530 浏览

nlp - 博客作者的性别分类

我正在研究博客作者的性别分类。我正在使用 Weka 进行分类。分类器是 SVM 和朴素贝叶斯分类器,但我的准确率在 50% 到 60% 之间,现在我怀疑我的特征集。我正在使用的功能是 POSTtags、以 ale、ably 等结尾的词、博客词、词干等。我正在参考这篇论文

论文链接

有谁知道更好的功能集是什么?

0 投票
1 回答
11742 浏览

machine-learning - 如何根据特征在 Weka 分类器中的重要性对特征进行排名?

我使用 Weka 成功构建了一个分类器。我现在想评估我的功能的有效性或重要性。为此,我使用 AttributeSelection。但我不知道如何输出具有相应重要性的不同特征。我只想按信息增益分数的降序列出这些特征!

0 投票
1 回答
791 浏览

nlp - 文本分类 - 使用词干分析器会降低结果?

这篇关于阿拉伯语情绪分析的文章。

在第 5 页的开头,它说:

“实验还表明,在特征提取和分类之前提取词干几乎总是会降低结果”。

稍后在同一页面中,他们声明:

“......和一个阿拉伯语的光词干用于词干”

嗯,我认为在文本分类之前总是使用词干分析器/词形还原器,为什么他说它会降低结果?

谢谢 :)

0 投票
0 回答
262 浏览

ruby - 如何对二元组进行分类?

我目前正在使用 Classifier gem 成功地对文本进行分类。我遵循了“ Ruby 中的贝叶斯分类”教程,一切正常。我有两个文件,一个名为“positive_tweets.yml”的文件如下:

  • “你好,有什么事。我很好”
  • “我是一个积极的推文”

和“negative_tweet.yml”

  • “今天天气真不好”
  • “我刚刚出了车祸”

为了对“我今天很好”进行分类,我首先像这样训练分类器:

然后我将文本“我今天很好”分类如下:

据我了解,这基本上是在一元级别上工作的。我还想将其提升到一个新的水平,即潜在地对二元组和 n-gram 进行分类。

我已经使用以下方法创建了一个文本的二元数组:

但是,我不确定如何从这里继续,因为该classify方法不采用数组。它需要一个字符串。

0 投票
1 回答
215 浏览

java - 情绪分类的拼写校正?

我目前正在做文本分类,发现语料库中的一些文档有拼写错误,比如“goes”写成“geos”,“available”写成“avaliable”。我是 524 智能停用词来删除停用词。这种拼写错误导致停用词无法从语料库中正确删除并存在于其中,这可能会影响我的分类器性能。我正在使用 20 News Group 数据集。

我应该用什么来纠正 Java 中的英语拼写?

0 投票
0 回答
77 浏览

machine-learning - 可能导致更高分类精度的错误?

我正在使用 20NewsGroup 数据集进行文本分类,我使用了 20NewsGroup_ByDate 数据集。我提取此处提供的词干文档

http://web.ist.utl.pt/~acardoso/datasets/

我在 weka 中应用了 tf-idf 转换、信息增益特征选择和朴素贝叶斯进行分类。我的结果高于上面提到的页面上提到的结果(82%)。我想了很多并搜索了我可能犯的错误,但在使用他们处理过的文件时找不到任何错误。

我只需要应用 tf-idf,IG 和分类器。请向我提供见解,可能会导致比预期更高的准确性的错误是什么?