问题标签 [categorization]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
251 浏览

text - 带有 Weka 问题的文本分类

我是文本分类的新手,我想用 WEKA 来实现它。我是否必须像下面的 ARFF 文件那样构建一个有监督的训练集?我必须手动做对吗?在这之后,我该怎么办?使用朴素贝叶斯分类器来预测测试集的类别?

0 投票
1 回答
44 浏览

performance - 提高文本匹配性能的数据结构

我正在努力将一些文本分类到最适合文本的类别中。作为第一步,我正在编写一个简单的文本匹配代码。我正在将文本集中的一段文本中的单词与指示某些类别的单词进行比较。

这个简单搜索的复杂度变得太大了 O(n^4)!

文本:许多好莱坞电影都很棒。电影爱好者沉迷于它们。(1个句子中有n个单词和m个这样的句子)

类别可以是:电影、歌曲、体育等(p 个类别,每个类别有 x 个单词)

电影的指示词-[电影,电影,电影...](一个类别的x词)

因此,搜索时间变为 O (m *n * p * x),这可能太大了。

你能建议我一些数据结构/方法来解决简化复杂性吗?

0 投票
1 回答
2517 浏览

python-2.7 - 需要在 NLTK 和 Python 中设置分类语料阅读器,语料在一个文件中,每行一个文本

我正在通过 Jacob Perkins 的书“使用 NLTK 2.0 Cookbook 的 Python 文本处理”来熟悉 NLTK 和文本分类。

我的语料库文档/文本每个都包含一段文本,因此它们每个都在单独的文件行中,而不是在单独的文件中。这些段落/行的数量约为200万。因此,机器学习实例大约有 200 万个。

我文件中的每一行(一段文本 - 域标题、描述、关键字的组合)都是特征提取的主题:标记化等,使其成为机器学习算法的实例。

我有两个这样的文件,其中包含所有积极和消极的内容。

如何将其加载到 CategorizedCorpusReader?可能吗?

我之前尝试过其他解决方案,比如 scikit,最后选择了 NLTK,希望从一个更简单的点开始获得结果。

0 投票
1 回答
3331 浏览

r - R函数——计算年龄组+空年龄

试图对年龄组进行分类,但可能有 Null 年龄。想要组“0-4”、“5-24”、“25-49”、“50-64”、“64 岁以上”和“空龄”。

我是 R 的新手;试图改变别人的密码。

计算年龄组

这是原始代码:

运行时,我收到以下错误:

if (this.yearsOfAge < 5) { 中的错误:需要 TRUE/FALSE 的缺失值

另外:警告信息:

1:在 mysqlExecStatement(conn, statement, ...) 中:RS-DBI 驱动程序警告:(作为字符导入的第 1 列中无法识别的 MySQL 字段类型 7)

2:在函数中(this.age,this.age_units):强制引入的NA

0 投票
1 回答
1835 浏览

java - 带有 weka 的文本分类器:如何正确训练分类器问题

我正在尝试使用 Weka 构建一个文本分类器,但distributionForInstance类的概率是1.0在一种情况下和0.0所有其他情况下,所以classifyInstance总是返回与预测相同的类。培训中的某些内容无法正常工作。

ARFF 培训

训练方法

测试方法

我想为短信创建一个文本分类器,此代码基于本教程http://preciselyconcise.com/apis_and_installations/training_a_weka_classifier_in_java.php。问题是分类器为 testing.arff 中的几乎每条消息预测错误的类,因为类的概率不正确。training_set_prova_tent.arff 每个类的消息数量相同。我正在遵循的示例使用 featureWords.dat 并将 1.0 与消息中存在的单词相关联,而不是我想创建自己的字典,其中包含 training_set_prova_tent 中存在的单词加上测试中存在的单词并与每个单词相关联出现次数。

PS我知道这正是我可以用过滤器StringToWordVector做的,但我还没有找到任何例子来解释如何使用这个过滤器和两个文件:一个用于训练集,一个用于测试集。所以改编我找到的代码似乎更容易。

非常感谢

0 投票
1 回答
172 浏览

php - MySQL - 如何访问表中第 2 级的所有节点

我正在为具有嵌套类别的电子商务网站创建一个数据库,并且我正在使用修改后的预购遍历算法。我的问题是如何访问第 2 级中的所有节点,即文章投资组合联系人

在此处输入图像描述

0 投票
1 回答
1376 浏览

r - 在R中对日期进行分类

我正在使用 R 中的数据集,其中主要关注领域是日期。(这与军队的小规模冲突有关,并记录小规模冲突的日期)。我想检查这些是否更有可能发生在给定的季节或假期附近等,所以我希望能够查看夏季、冬季等有多少日期,但我有点如何做到这一点的损失。

0 投票
1 回答
122 浏览

web-crawler - Crawler4j 下载文章

我正在尝试使用 Crawler4j 从新闻门户网站下载文章。我想将它们存储在“运动”、“科学”、“健康”或该门户网站制作的任何其他类别下的文件夹中。Url 解析是不够的,因为某些门户网站在 url 中不使用类别。我唯一的想法是制作一棵树并记住当前页面上找到的链接。有更简单的方法吗?

0 投票
2 回答
340 浏览

r - 如何使用引用表将行插入到 R 中的数据框中?

我有一个数据框(标签),我想用作表格的参考或查找表:

使用引用表的数据框是 (test, ncol = 564, nrow = 2947) 其中前三个 colnames 是 (test_subject, test_label(num 1-6), data_set) 其中 test_label(1-6) 等于引用的字符串以上。

有人可以帮我弄清楚如何使用我的查找表插入一个名为“activity_label”的新列,并且该列的每个观察值都对应于引用表中引用的数字的字符串等价物。

例如,如果 test_label 第 1 行等于 5,那么 activity_label 第 1 行将等于“Standing”

非常感谢您的帮助!

#

使用合并方法后:

分析剩余dfs的结构

0 投票
0 回答
54 浏览

r - 如果一个观察符合标准,则对观察的每个实例进行分类

我有一个公司创始人及其政治捐款的数据库。许多人多次付出,但每次都以不同的方式确定他们的工作。幸运的是,每个人的名字都有一个固定的数字代码。

如果他们在数据库中的任何地方表明他们有某种类型的工作,我希望能够将每个人归类为有某种工作。这是一个可复制的数据框

如果我想知道一个人是否在数据框中的任何地方将自己标识为投资者,我想象的最终数据框将如下所示:

我已经搜索了诸如“条件分组”或“条件分类”之类的标签。也许这是计算机科学中的一种常见技术,我只是错过了这个词。感谢您的帮助,如果我能让问题更容易回答,请告诉我