问题标签 [text-classification]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1530 问题

0 投票

2 回答

655 浏览

machine-learning - 文本分类 - 如何找到对决策影响最大的特征

当使用SVMlight或LIBSVM为了将短语分类为正面或负面（情绪分析）时，有没有办法确定哪些是影响算法决策的最有影响力的词？例如，发现这个词"good"有助于确定一个短语是积极的，等等。

2013-12-29T22:47:34.163

0 投票

1 回答

3985 浏览

machine-learning - 如何在 Weka 中应用特征缩减方法？

1）如何在weka中应用LSI等特征减少方法进行文本分类？

2）应用LSI等特征减少方法可以提高分类的准确性吗？

machine-learning text-classification

2014-01-02T10:00:30.037

0 投票

0 回答

203 浏览

weka - 多项朴素贝叶斯引发错误

1）在 weka 中应用 MultinomialNaivesBayes（不是任何其他分类器）会引发异常“评估分类器的问题：数字属性值必须全部大于或等于零”？如何解决？

2) 降维（PCA、LSI、随机投影）是特征选择（InformationGain、ChiSqr）的替代方法还是我们需要两者都应用？我在互联网上看到了关于他们的相互矛盾的意见？

weka dimensionality-reduction text-classification

2014-01-04T13:37:29.000

0 投票

1 回答

47 浏览

performance - 训练文档的数量对分类时间有什么影响？

训练文档的数量对分类时间有影响吗？对于 K-nn，我知道 K-nn 中的所有计算都是在分类中进行的，而在训练中没有或只做最少的工作。支持向量机、朴素贝叶斯、决策树等是否也是如此？

performance machine-learning text-classification

2014-01-13T09:09:35.043

0 投票

2 回答

530 浏览

nlp - 博客作者的性别分类

我正在研究博客作者的性别分类。我正在使用 Weka 进行分类。分类器是 SVM 和朴素贝叶斯分类器，但我的准确率在 50% 到 60% 之间，现在我怀疑我的特征集。我正在使用的功能是 POSTtags、以 ale、ably 等结尾的词、博客词、词干等。我正在参考这篇论文

论文链接

有谁知道更好的功能集是什么？

nlp weka text-classification

2014-01-16T05:36:10.267

0 投票

1 回答

11742 浏览

machine-learning - 如何根据特征在 Weka 分类器中的重要性对特征进行排名？

我使用 Weka 成功构建了一个分类器。我现在想评估我的功能的有效性或重要性。为此，我使用 AttributeSelection。但我不知道如何输出具有相应重要性的不同特征。我只想按信息增益分数的降序列出这些特征！

machine-learning nlp weka feature-selection text-classification

2014-01-21T20:05:17.887

0 投票

1 回答

791 浏览

nlp - 文本分类 - 使用词干分析器会降低结果？

有这篇关于阿拉伯语情绪分析的文章。

在第 5 页的开头，它说：

“实验还表明，在特征提取和分类之前提取词干几乎总是会降低结果”。

稍后在同一页面中，他们声明：

“......和一个阿拉伯语的光词干用于词干”

嗯，我认为在文本分类之前总是使用词干分析器/词形还原器，为什么他说它会降低结果？

谢谢：）

nlp sentiment-analysis stemming text-classification

2014-01-22T21:47:38.430

0 投票

0 回答

262 浏览

ruby - 如何对二元组进行分类？

我目前正在使用 Classifier gem 成功地对文本进行分类。我遵循了“ Ruby 中的贝叶斯分类”教程，一切正常。我有两个文件，一个名为“positive_tweets.yml”的文件如下：

“你好，有什么事。我很好”
“我是一个积极的推文”

和“negative_tweet.yml”

“今天天气真不好”
“我刚刚出了车祸”

为了对“我今天很好”进行分类，我首先像这样训练分类器：

然后我将文本“我今天很好”分类如下：

据我了解，这基本上是在一元级别上工作的。我还想将其提升到一个新的水平，即潜在地对二元组和 n-gram 进行分类。

我已经使用以下方法创建了一个文本的二元数组：

但是，我不确定如何从这里继续，因为该classify方法不采用数组。它需要一个字符串。

ruby sentiment-analysis text-classification

2014-01-28T23:55:08.543

0 投票

1 回答

215 浏览

java - 情绪分类的拼写校正？

我目前正在做文本分类，发现语料库中的一些文档有拼写错误，比如“goes”写成“geos”，“available”写成“avaliable”。我是 524 智能停用词来删除停用词。这种拼写错误导致停用词无法从语料库中正确删除并存在于其中，这可能会影响我的分类器性能。我正在使用 20 News Group 数据集。

我应该用什么来纠正 Java 中的英语拼写？

java spell-checking text-classification

2014-01-29T12:40:35.613

0 投票

0 回答

77 浏览

machine-learning - 可能导致更高分类精度的错误？

我正在使用 20NewsGroup 数据集进行文本分类，我使用了 20NewsGroup_ByDate 数据集。我提取此处提供的词干文档

http://web.ist.utl.pt/~acardoso/datasets/

我在 weka 中应用了 tf-idf 转换、信息增益特征选择和朴素贝叶斯进行分类。我的结果高于上面提到的页面上提到的结果（82%）。我想了很多并搜索了我可能犯的错误，但在使用他们处理过的文件时找不到任何错误。

我只需要应用 tf-idf,IG 和分类器。请向我提供见解，可能会导致比预期更高的准确性的错误是什么？

machine-learning weka text-classification

2014-01-29T15:34:21.900

1 2 3 4 5 6 7 8 9 10

问题标签 [text-classification]

Reference