问题标签 [text-classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 如何在 SVM 中编码不同大小的特征向量
我致力于将一些评论(段落)分类为由多个句子组成。我通过 libSVM 在 Weka 中使用词袋特征对它们进行分类。但是,我有另一个想法,我不知道如何实现:
我认为在评论中为每个句子创建基于句法和浅语义的特征值得一试。但是,我找不到任何方法来按顺序对这些特征进行编码,因为段落的句子大小会有所不同。我想让这些特征保持有序的原因是句子特征的顺序可能会为分类提供更好的线索。例如,如果我有两个实例 P1(3 个句子)和 P2(2 个句子),我将有一个这样的空间(假设每个句子都有一个二进制特征作为 a 或 b):
P1 -> abb /classX P2 -> ba /classY
所以,我的问题是,我是否可以在特征空间中实现不同特征大小的分类?如果是,是否有任何类型的分类器可以在 Weka、scikit-learn 或 Mallet 中使用?我将不胜感激。
谢谢
weka - 120类分类任务的文本分类方案
我有大约 15k 个文本实例,它们被手工分类到 120 个类别之一。文本片段是来自客户的电子邮件。类的频率从 1 到 2000 不等。我想在这些数据上训练一个分类器,以便可以自动分类后续的电子邮件。
我已经尝试过朴素贝叶斯和 SVM,但报告正确分类实例的百分比分别为 51% 和 57%。我使用了词干分析器,删除了停用词并将文本更改为小写。
我确信这样一个具有大量类别和分布不均匀的文本分类任务,必须以不同的方式处理,但我找不到这种情况的任何参考......有什么建议吗?
提前致谢!
nlp - 使用自动编码器进行文本分类的特征构建
据我所知,自动编码器可用于降低特征向量的维数。在文本分类中,特征向量通常是通过字典构建的——字典往往非常大。我没有使用自动编码器的经验,所以我的问题是:
- 自动编码器可以用来减少文本分类中的维度吗?(为什么?/为什么不呢?)
- 有人已经这样做了吗?如果是这样,来源会很好。
python - 朴素贝叶斯:不平衡的测试数据集
我正在使用 scikit-learn Multinomial Naive Bayes 分类器进行二进制文本分类(分类器告诉我文档是否属于类别 X)。我使用平衡的数据集来训练我的模型,并使用平衡的测试集来测试它,结果非常有希望。
这个分类器需要实时运行并不断分析随机扔给它的文档。
但是,当我在生产环境中运行我的分类器时,误报的数量非常高,因此我最终得到的精度非常低。原因很简单:分类器在实时场景中遇到更多的负样本(大约 90% 的时间),这与我用于测试和训练的理想平衡数据集不对应。
有没有办法可以在训练期间模拟这个实时案例,或者有什么技巧可以使用(包括对文档进行预处理以查看它们是否适合分类器)?
我计划使用与实时情况相同比例的不平衡数据集来训练我的分类器,但我担心这可能会使朴素贝叶斯偏向负类并失去我对正类的回忆。
任何建议表示赞赏。
machine-learning - 对具有不同类别分数的多个类别的错误分类
我鼓励解决下一个问题:我正在尝试对大量文本文档进行分类。
有 20 级:1 级正常,19 级 - 异常。当我使用朴素贝叶斯分类时,我得到以下结果:分类适用于 19 个类,但对于“正常”类,我得到了许多错误分类错误:“正常”类别中的几乎所有案例都被归类为其他(非正常)类别。
有我的问题:
- 我应该如何为“普通”课程选择训练集?(现在,我只适合分类为“正常”类别的文本集,比例为 1/20)。
- 可以这样指定分类器:如果属于某个类别的概率小于某个阈值,那么分类器必须
为此样本设置类别(例如正常)?
java - 从段落中提取关键字
我想从我的文本中提取关键字。我的文章必须是与音乐、体育、农业等相关的任何类型。所以我想要的是从段落中提取关键字。我想用 Java 做这件事,我搜索了很多,但找不到任何好的算法或程序来做这件事。
经过搜索,我发现python中有关键字提取算法。但我需要在 Java 中执行此操作。我目前所做的是
但问题是我们不能说词频最大的句子就是主句。我也打算做总结器来从段落中提取主要句子。现在我完全被这个困住了。任何人都可以帮助我。任何帮助将不胜感激。
twitter - 标记化和停用词在使用 RapidMiner 的推文数据库中不起作用
我想对数据库中包含的 Twitter 评论进行标记化并应用停用词过滤器,但 Process Document 什么也不做。我究竟做错了什么?
我的目标是应用这些过滤器,但将评论保留在行中,而不是单个词向量。
machine-learning - 服务提供商使用的垃圾邮件过滤(用户自定义)
我正在学习各种电子邮件服务提供商实施的垃圾邮件过滤技术。准确地说,这被视为一个分类问题,并使用各种技术,如贝叶斯、SVM(支持向量机)、KNN 等来创建分类模型。
在这些方法之前,我了解了一切。但是当我看到 Gmail 中的用户自定义垃圾邮件过滤时,我有点困惑(我们可以选择任何邮件作为垃圾邮件或非垃圾邮件)。他们究竟是如何实现这个选项的。他们会为每个用户创建一个单独的分类模型,还是有任何其他选项/技术可以做到这一点。
我试图在网上搜索它,但没有得到满意的结果。
java - 如何在给定预处理的情况下在 weka 中正确分类文本
我需要以编程方式使用 weka 对一些文本进行分类,但是我遇到了问题,因为训练数据和要分类的数据在与分类器一起使用之前需要过滤(以相同的方式)。
我目前解决这个问题的方法是:使用带有字符串属性和类的训练数据创建一个 arff。在数据集上使用 StringToWordVector 并保存过滤器以供将来使用。对结果数据使用 Attributeselection 过滤器并保存过滤器以备将来使用。使用该数据训练分类器并保存分类器。创建一个与 arff 具有相同属性的“实例”,并用我要分类的实例填充它,并且缺少类属性的值。加载 StringToWordVector 过滤器并使用它来过滤实例。加载 AttributeSlection 过滤器并使用它来过滤结果。加载分类器并对结果进行分类。
似乎 StringToWordVector 正在按我的预期工作,并且对新数据使用与旧数据相同的一组单词。问题在于 AttributeSelection 似乎再次尝试运行,但并不知道我只是希望它使用它之前已经过滤的属性。
python - 除了使用像 Bag-of-words 这样的向量表示之外,还有哪些特征对句子分类有好处?
我试图找出给定的句子是否是“问题请求”、“行动呼吁”等。我为此使用了有监督的多标签分类。
有哪些好的功能可以使用?我目前正在使用带有三元组、情态动词、疑问词等的词袋,但结果并不是那么好。
输入示例:“你今天能拿到这个吗?我需要以下物品。”