问题标签 [text-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
weka - 如何在 Weka 中使用词性标记数据?
我们有一个包含 20k 条推文的数据集,这些推文已经由我们的教授处理过,因此每个词的词性都在词之后定义……这个 pos 标记来自 Penn Treebank 项目。以下是一些例句:
其中第一个字符是句子的分类,句子中的每个单词都用它的 pos 标记。
读入数据时,Weka 有 pos 解析功能吗?目前我们已经剥离了 pos 标签并且没有使用它们,但我想它们对于提高分类器的准确性非常有帮助。
谢谢!
text - 使用 sklearn 或现有模块对文本进行聚类,让每个聚类属于多标签
我有这样的数据
我想对它们进行聚类并用多个标签标记它们中的每一个。可以使用现有工具吗?我没有足够的时间自己实施。太感谢了!!
twitter - 朴素贝叶斯分类器是否需要了解整个词汇表?
我正在尝试将推文分为两类(例如,basketball
和non-basketball
)。显然,数据集是动态的,即文档集合不固定为一组N
文档(即推文):数据集在爬取 Twitter 时一遍又一遍地膨胀。
应该尝试应用的一件事是朴素贝叶斯分类器,它广泛用于文本分类。此处提供了解释。然而,一个疑问仍然存在。
我可以从训练集开始计算模型(并说明词汇表V
是由训练集中包含的术语组成的)。现在,人们可以收集一条新的、未分类的推文,其中包含不存在的V
术语(即,没有出现在训练集中的术语)。朴素贝叶斯分类器是否仍然适用?
概括问题:朴素贝叶斯分类器能否应用于词汇表不完全已知的情况?
先感谢您。
command-line - 使用多过滤器进行批量过滤会引发“未设置类属性”异常
我们有一个包含 15k 条分类推文的数据集,我们需要使用这些推文进行情绪分析。我想针对 5k 分类推文的测试集进行测试。由于 Weka 在测试集的标头中需要与训练集标头中存在的相同属性,如果我希望能够针对这个 5k 测试集运行我的分类器,我将不得不使用批量过滤。
但是,我需要通过几个过滤器来运行我的训练集,所以我认为针对训练集运行一个多重过滤器是一个好主意。不运行批处理参数时,多重过滤器工作正常,但是当我尝试批处理过滤时,我从 CLI 收到错误,因为它试图在多重过滤器中执行第一个过滤器:
带有批处理参数的 CLI multiFilter 命令:
这是来自 CLI 的结果错误:
以下是训练和测试输入 arffs的部分数据的标题:
训练:
测试:
我在这里做错了吗?我知道有监督的重采样要求类属性位于标题中属性列表的底部,并且它是......在测试和训练输入文件中。
编辑:
进一步的测试表明,此错误不会与批量过滤有关,每当我从 CLI 运行监督重采样过滤器时就会发生此错误......我使用的数据适用于我在 CLI 中尝试过的所有其他过滤器,所以我不明白为什么这个过滤器有什么不同......在 GUI 中重新采样数据也可以正常工作......
更新:
这也发生在 SMOTE 过滤器而不是重采样过滤器上
nlp - 如何判断一个名词是人、地还是物?
我正在尝试对文本进行分类,然后将名词映射到人、地点或事物上。有没有办法或字典来做到这一点?
machine-learning - 文本分类与句子分类
两者有什么区别?文章似乎以不同的方式对待它们……也就是说,一篇论文将展示对文本分类或句子分类的研究。
我想知道 - 如果一个人对整个文本应用句子分类,然后根据其大部分句子被分类到的内容对段落进行分类 - 这会算作正确的文本分类吗?还是文本分类有不同的“捕获”?
dictionary - 同义词词典
可用于自然语言处理的字典很少。像正面,负面的词词典等。
是否有任何可用的字典包含所有字典单词的同义词列表?
像nice
r - 使用 R 的分层预测
我是 R 的新手,我找不到任何关于可以执行以下操作的包的信息:假设我有一组数据(例如,不同的文本文档),它可以有多个类。
例如,数据可以是一项运动、一项有球运动、一项无球运动和一辆汽车。我希望能够预测数据属于哪个类别,考虑到我可能不会认为数据是带球的运动,但如果我正确预测它是运动,我会很高兴。
哪个包可以提供这种东西?如果可能的话,一些例子会很有用。
提前致谢
twitter - 推文分类
我正在尝试进入机器学习领域,因此我想尝试在推文上进行文本分类。我收集了一小部分推文样本,但为了执行任何监督学习,我需要手动标记我收集的一些推文。当我扩大数据规模时,这是一项艰巨的任务。
有没有什么方法可以在没有我手动标记大量推文的情况下进行分类?或者无监督学习更适合这项任务?
python - Python 文本处理:AttributeError: 'list' object has no attribute 'lower'
我是 Python 和 Stackoverflow 的新手(请保持温和),并且正在尝试学习如何进行情绪分析。我正在使用在教程和此处找到的代码组合:Python - AttributeError: 'list' object has no attribute但是,我不断收到
这是我的代码:
任何帮助将不胜感激。