问题标签 [document-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
text - 文本分类中的特征选择
我目前在研究文本分类,重点是特征选择。谁能建议我任何可用于提供特征选择功能(特别是信息增益、卡方、优势比、互信息等)的文本分类的软件/程序?
谢谢和最好的问候=)
python - 在 python 中使用朴素贝叶斯进行文档分类
我正在做一个在 python 中使用朴素贝叶斯分类器进行文档分类的项目。我也使用了 nltk python 模块。文档来自路透社数据集。我执行了诸如词干提取和停用词消除之类的预处理步骤,并继续计算索引词的 tf-idf。我使用这些值来训练分类器,但准确度很差(53%)。我应该怎么做才能提高准确性?
machine-learning - 机器学习当数据集只包含一类实例时使用什么方法?
我有一个特定领域的数据集(比如运动 - 1 类)。我想要做的是,当我将网页提供给分类器/集群时,我想得到一个结果,无论该实例(网页)是否与运动相关。
weka 中的大多数分类器都不能处理一元类数据集,除了 LibSVM(包装器)。我用 LibSVM 做了一些测试,但问题是在对不相关的数据集进行测试期间,即使实例是空的,我也能正确分类它们!有什么建议么?
如果我在这里使用余弦相似度测量怎么办?
machine-learning - 实例的数量或实例的内容更重要(机器学习)?
比如说在文档分类领域,如果我有一个包含 1000 个实例的数据集,但实例(文档)的内容相当少;而且我有另一个包含 200 个实例的数据集,但每个实例都具有更丰富的内容。如果 IDF 不在我的考虑范围之内,那么训练实例的数量真的很重要吗?分类算法是否会考虑到这一点?
谢谢。山姆
java - 文本分类的质心算法,工具?
正如这里所讨论的,你知道有什么工具可以为 java 中的文本分类提供质心算法吗?
matlab - 在matlab中对单元格数组进行分类
我想对新闻数据集进行文本分类。我有很多特性,比如subject
, keyword
,summary
等等......所有这些特性都存储在一个结构单元数组中,每个结构看起来像这样:
我想对它们进行分类,class = classify(test, train, target, 'diaglinear');
但这些函数只接收数组作为输入,不接受单元格或结构。
我无法将此元胞数组转换为一个多维数组,因为特征的数量会有所不同(例如,一个主题有两个词,另一个主题有三个词)。
我能做些什么?
data-mining - 使用 Joaquim 的 SVM 光进行 3 折交叉验证
我需要使用 Joaquim 的 SVM 灯进行 3 折交叉验证。交叉验证和 SVM 对我来说是新事物,我不知道我是否做得对。到目前为止我做了什么?我将我的数据转换为我称为 fold1.txt fold2.txt fold3.txt 的 3 个文件,并在以下模型中使用了我的功能:
1 个特征数:1 个特征数:1 ...
我还用我的标记做了一个名为 words.txt 的文件,其中行数是我的特征数。我做对了吗?
所以,现在我必须做 3 折交叉验证,但我不知道如何用 Joaquim 的 SVM 灯来做。我不知道要让 svm light 学习和使用这三个文件进行分类,然后选择我要用作测试和火车的那些。我是否必须编写脚本或程序才能做到这一点?
感谢大家
蒂亚戈
probability - Weka下朴素贝叶斯分类器的概率计算
我想了解朴素贝叶斯分类器如何与文本分类一起工作,特别是概率的计算如何?
属性 event1 event2
(0.4) (0.6)
2006 年平均 1 0 标准。开发。0.1667 0.1667 权重总和 1 2 精度 1 1
在我的数据中,我有两个“event2”类的实例和一个“event1”类的实例。所以通常类概率应该如下: P(event1)=1/3=0.33 and P(event2)=2/3=0.66 但是使用朴素贝叶斯:P(event1)=0.3 and P(event2)=0.6
我还想知道它如何计算属性“2006”的概率
有什么帮助吗?
filter - weka下的StringToWordVector过滤器
我的数据通过 StringToWordVector 过滤器传递。StringToWordVector 可以输出二进制存在/不存在指示符、词频或 TF-IDF 分数。weka下这个过滤器的默认输出是什么?
artificial-intelligence - 训练集不完整的文档分类
请指教。我有一个文档集合,它们都有一个共同的属性(例如出现了法语单词),其中一些文档已被标记为与此集合无关(例如出现法语之吻),但不能保证所有文档都已被识别。找出哪些其他文档不属于的最佳方法是什么。