问题标签 [classification]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
940 浏览

nlp - (人类)文档的语言

有没有办法(程序、库)大致知道文档是用哪种语言编写的?

我有一堆混合语言的文本文档(~500K)要导入启用 i18n 的 CMS(Drupal)..

我不需要完美匹配,只需要一些猜测。

0 投票
2 回答
7754 浏览

java - 使用 Java 的图像分类算法

我的目标是实现不同的图像分类方法,以展示它们的功能以及这些方法背后的优缺点。我想尝试使用 Java 实现的包括:

最小距离分类器

k-最近邻分类器。

我想知道什么可以用来完成我在 Java 中已经存在的任务,以便我可以改变算法的运行方式。

0 投票
2 回答
2082 浏览

artificial-intelligence - 衡量分类算法的性能

我手头有一个分类问题,我想用机器学习算法来解决(贝叶斯或马尔科夫可能,这个问题独立于要使用的分类器)。给定一些训练实例,我正在寻找一种方法来衡量已实施分类器的性能,同时考虑数据过度拟合问题。

也就是说:给定 N[1..100] 个训练样本,如果我对每个样本运行训练算法,并使用这些相同的样本来测量适应度,它可能会陷入数据过度拟合问题——分类器会知道训练实例的确切答案,没有太多的预测能力,使得适应度结果毫无用处。

一个明显的解决方案是将手工标记的样本分成训练样本和测试样本;我想了解选择具有统计意义的样本进行训练的方法。

非常感谢白皮书、书籍指南和 PDF!

0 投票
3 回答
5437 浏览

java - 什么是最好的开源 Java 贝叶斯垃圾邮件过滤器库?

在 Stackoverflow 的其他答案中,有人建议 Weka 很好,但还有其他答案(Classifier4jjBNCNaiban)。

有人对这些有实际经验吗?

0 投票
9 回答
1279 浏览

machine-learning - 我认为是机器学习问题的最佳方法

我在这里需要一些专家指导,了解什么是我解决问题的最佳方法。我研究了一些机器学习、神经网络和类似的东西。我已经调查了 weka,某种贝斯解决方案.. R.. 几种不同的东西。不过,我不确定如何真正进行。这是我的问题。

我拥有或将拥有大量事件......最终大约有 100,000 个左右。每个事件由几个(30-50)个自变量和一个我关心的因变量组成。在确定因变量的值时,一些自变量比其他变量更重要。而且,这些事件与时间相关。今天发生的事情比十年前发生的事情更重要。

我希望能够为某种学习引擎提供一个事件,并让它预测因变量。然后,知道这个事件(以及之前发生的所有事件)的因变量的真正答案,我希望它可以训练后续的猜测。

一旦我知道了编程方向,我就可以进行研究并弄清楚如何将我的想法转化为代码。但我的背景是并行编程,而不是这样的东西,所以我很想对此有一些建议和指导。

谢谢!

编辑:这里有更多关于我要解决的问题的详细信息:这是一个定价问题。假设我想预测一本随机漫画书的价格。价格是我唯一关心的。但是可以想出很多自变量。是超人漫画还是凯蒂猫漫画。它几岁了?什么条件?等等等等。经过一段时间的训练,我希望能够给它关于我可能正在考虑的漫画书的信息,并让它给我一个合理的漫画书期望值。好的。所以漫画书可能是一个虚假的例子。但你得到了一般的想法。到目前为止,从答案来看,我正在对支持向量机和朴素贝叶斯进行一些研究。感谢您迄今为止的所有帮助。

0 投票
5 回答
2580 浏览

nlp - NLP 将句子/段落分类为有趣

有没有办法将特定的句子/段落分类为有趣。很少有关于人们应该在这方面更进一步的指示。

0 投票
3 回答
2800 浏览

machine-learning - 自然语言处理中的二值化

二值化是将实体的彩色特征转换为数字向量(通常是二进制向量)的行为,以便为分类器算法提供良好的示例。

如果我们在哪里对句子“The cat ate the dog”进行二值化,我们可以首先为每个单词分配一个 ID(例如 cat-1、ate-2、the-3、dog-4),然后简单地将单词替换为它的 ID 给出了向量 <3,1,2,3,4>。

给定这些 ID,我们还可以通过为每个单词提供四个可能的槽位并将与特定单词对应的槽位设置为 1 来创建二进制向量,从而使向量 <0,0,1,0,1,0,0,0 ,0,1,0,0,0,0,0,1>。据我所知,后一种方法通常被称为词袋法。

现在我的问题是,在描述自然语言处理的一般特征,特别是基于转换的依赖解析(使用 Nivres 算法)时,最好的二值化方法是什么?

在这种情况下,我们不想对整个句子进行编码,而是要对解析的当前状态进行编码,例如堆栈上的顶部单词和输入队列中的第一个单词。由于顺序是高度相关的,这排除了词袋方法。

best,我指的是使数据对分类器最易理解的方法,而不会占用不必要的内存。例如,我不希望一个单词 bigram 对 20000 个唯一单词使用 4 亿个特征,如果实际上只有 2% 的 bigrams 存在的话。

由于答案也取决于特定的分类器,我最感兴趣的是最大熵模型(liblinear)、支持向量机(libsvm)和感知器,但也欢迎适用于其他模型的答案。

0 投票
1 回答
420 浏览

classification - 用于商业用途的免费主题分类法(分类系统)

我正在寻找一个完全免费的免费分类法。在我的研究中,杜威有法律问题。除美国外,国会图书馆分类受版权保护。DMOZ 需要用户更新。如果我错了,请纠正我。

那么,有没有完全免费的商业用途分类法?

我正在寻找的是类似谷歌目录或雅虎目录的东西。

0 投票
3 回答
5163 浏览

python - 哪些 Python 贝叶斯文本分类模块类似于 dbacl?

快速的谷歌搜索显示有大量的贝叶斯分类器被实现为 Python 模块。如果我想要类似于dbacl的封装的高级功能,哪些模块适合我?

训练

分类

0 投票
2 回答
2883 浏览

algorithm - 对产品列表进行分类的算法?拿 2

几周前我问了一个类似的问题,但我没有正确地问这个问题。所以我在这里用更多细节重新提出这个问题,我想得到一个更面向人工智能的答案。

我有一个列表,代表或多或少相同的产品。例如,在下面的列表中,它们都是希捷硬盘。

  1. 希捷硬盘 500Go
  2. 适用于笔记本电脑的希捷硬盘 120Go
  3. 希捷 Barracuda 7200.12 ST3500418AS 500GB 7200 RPM SATA 3.0Gb/s 硬盘
  4. 希捷全新闪亮 500Go 硬盘
  5. 希捷梭子鱼 7200.12
  6. 希捷 FreeAgent Desk 500GB 外置硬盘 银色 7200RPM USB2.0 零售
  7. GE Spacemaker Laudry
  8. 马自达3 2010
  9. 马自达3 2009 2.3L

对于人类来说,硬盘3和5是一样的。我们可以更进一步,假设产品 1、3、4 和 5 相同,并将产品 2 和 6 放在其他类别中。

在我之前的问题中,有人建议我使用特征提取。当我们有一个预定义描述的小数据集(所有硬盘驱动器)时,它工作得很好,但是所有其他类型的描述呢?我不想开始为我的应用程序可能面临的所有描述编写基于正则表达式的特征提取器,它无法扩展。是否有任何机器学习算法可以帮助我实现这一目标?我能得到的描述范围很广,在第一行,可能是冰箱,然后在下一行,是硬盘。我应该尝试走神经网络路径吗?我的输入应该是什么?

感谢您的帮助!