问题标签 [document-classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
4910 浏览

text - 推荐相关文章的可靠算法有哪些?

很常见的情况,我敢打赌。你有一个博客或新闻网站,你有很多文章或博客或任何你称之为的东西,你想在每一个的底部推荐其他似乎相关的东西。

让我们假设每个项目的元数据很少。也就是说,没有标签、类别。视为一大块文本,包括标题和作者姓名。

你如何去寻找可能相关的文件?

我对实际的算法很感兴趣,而不是现成的解决方案,尽管我可以看看用 ruby​​ 或 python 实现的东西,或者依赖 mysql 或 pgsql。

编辑:目前的答案很好,但我想看到更多。也许是一两件事的一些非常简单的示例代码。

0 投票
8 回答
4719 浏览

statistics - 理解贝叶斯定理

我正在研究一个朴素贝叶斯分类器的实现。编程集体智能通过将贝叶斯定理描述为:

以及与文档分类相关的具体示例:

Pr(A | B)我希望有人可以向我解释这里使用的符号,是什么Pr(A)意思?它看起来像某种功能,但管道(“ |”)是什么意思,等等?

0 投票
3 回答
4719 浏览

r - 文档分类的决策树

嗨,我想知道是否可以使用决策树进行文档分类,如果可以,那么数据表示应该如何?我知道将 R 包派对用于决策树。

0 投票
2 回答
5586 浏览

text - SVM 多类文本分类

我想对新闻数据集和训练数据进行分类,使用 IPTC 主题代码(层次分类)进行分类。在我的项目中,我应该使用 svm 。

我已经完成了所有的特征提取,词干提取,去除停用词......

我几乎拥有 svm multiclass 所需的文件格式:

这就像:

我不知道我应该如何使用 svmmulticlass

我也听说过一对一,我不知道它是什么

请告诉我哪里可以找到一些关于它的教程,或者如何使用它

问候

0 投票
7 回答
15435 浏览

algorithm - 文本分类/分类算法

我的目标是[半]自动将文本分配给不同的类别。有一组用户定义的类别和每个类别的一组文本。理想的算法应该能够从人为定义的分类中学习,然后自动对新文本进行分类。任何人都可以建议这样的算法,也许是实现ше的.NET库?

0 投票
3 回答
2314 浏览

machine-learning - 如何在分类中包含单词作为数字特征

在任何机器学习算法中使用单词本身作为特征的最佳方法是什么?

我必须从特定段落中提取与单词相关的特征的问题。我应该使用字典中的索引作为数字特征吗?如果是这样,我将如何规范这些?

一般来说,单词本身是如何在 NLP 中用作特征的?

0 投票
4 回答
6795 浏览

nlp - 字典单词下载

有人可以提供有关在哪里可以找到带有频率信息的字典单词列表的建议吗?

理想情况下,来源是北美品种的英语单词。

0 投票
1 回答
1221 浏览

machine-learning - LibSVM 和非数值数据

我对使用 LibSVM 进行文本分类很感兴趣。您如何建议我将术语/单词转换为数字数据,以便 LibSVM 可以理解?

谢谢!

0 投票
2 回答
1194 浏览

machine-learning - 从网页中分类网站类型

是否有任何可靠/已部署的方法、算法或工具通过解析其网页来标记网站类型。

例如:论坛、博客、PressRelease 网站、新闻、E-Comm 等。

我正在寻找一些可以确定的定义明确的特征(静态规则)。如果没有,那么我希望机器学习模型可能会有所帮助。

建议/想法?

0 投票
2 回答
1034 浏览

algorithm - 文档分类,使用遗传算法

我的大学项目有点问题。

我必须使用遗传算法实现文档分类。

我看过这个例子并且(可以说)理解遗传算法的原理,但我不确定它们如何在文档分类中实现。无法计算适应度函数。

这是我到目前为止所想到的(它可能完全错误......)

接受我有类别,并且每个类别都由一些关键字描述。
将文件拆分为单词。
从文件中填充随机单词的数组(例如 100 个数组,但这取决于文件的大小)创建第一个填充。
1:
为总体中的每个孩子选择最佳类别(通过计算其中的关键字)。
交叉人口中的每 2 个孩子(包含每个孩子一半的新数组) - “交叉”
用文件中随机未使用的单词填充交叉剩下的其余孩子 - “进化??”
用文件中的随机词(使用或未使用)替换新种群中随机子项中的随机词 - “突变”
将最佳结果复制到新种群。
转到 1 直到达到某个人口限制或找到某个类别的次数足够多

我不确定这是否正确,并且很乐意得到一些建议,伙计们。
非常感谢!