问题标签 [classification]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 概率和神经网络
在神经网络中直接使用 sigmoid 或 tanh 输出层来估计概率是一种好习惯吗?
即给定输入发生的概率是 NN 中 sigmoid 函数的输出
编辑
我想使用神经网络来学习和预测给定输入发生的概率。您可以将输入视为 State1-Action-State2 元组。因此,NN 的输出是在 State1 上应用 Action 时 State2 发生的概率。
我希望这确实清楚事情..
编辑
在训练 NN 时,我对 State1 执行随机操作并观察结果 State2;然后教 NN 输入 State1-Action-State2 应该导致输出 1.0
java - Java文本分类问题
我有一组 Books 对象,类Book定义如下:
其中title是书名,例如:Javascript for dummies。
taglist是我们示例的标签列表:Javascript 、jquery、“web dev”、..
正如我所说,有一套书谈论不同的事情:IT、生物学、历史……每本书都有一个标题和一组描述它的标签。
我必须按主题将这些书自动分类为单独的集合,例如:
它的书:
- 傻瓜Java
- 傻瓜的Javascript
- 在 30 天内学习 Flash
- C++ 编程
历史书籍:
- 世界大战
- 1960年的美国
- 马丁路德金生平
生物学书籍:
- ……
你们知道适用于这类问题的分类算法/方法吗?
一种解决方案是使用外部 API 来定义文本的类别,但这里的问题是书籍使用不同的语言:法语、西班牙语、英语..
code-generation - 来自字符串的机器学习和代码生成器
问题:给定一组手工分类的字符串(或一组有序的字符串向量)生成一个分类函数来分类更多输入。就我而言,该数据(或大部分数据)不是自然语言。
问题:是否有任何工具可以做到这一点?我正在考虑某种合理完善、下载、安装和运行的东西,而不是一些图书馆或脆弱的学术程序。
(请不要拘泥于细节,因为真实的细节会限制对不太有用的回复的回答,并且在 NDA 之下。)
作为我正在查看的示例;我要过滤的输入是从日志中提取的计算机生成的状态字符串。根据需要通知谁或需要采取什么行动来过滤错误消息(例如)。
nlp - 使用示例数据或 Web 服务使用 NLTK python 对句子进行情感分析?
我正在着手进行情绪分析的 NLP 项目。
我已经成功地为 python 安装了 NLTK(这似乎是一个很棒的软件)。但是,我无法理解如何使用它来完成我的任务。
这是我的任务:
- 我从一个很长的数据开始(让我们从他们的网络服务中说数百条关于英国大选主题的推文)
- 我想把它分解成句子(或信息不超过 100 个左右的字符)(我想我可以在 python 中做到这一点??)
- 然后在所有句子中搜索该句子中的特定实例,例如“David Cameron”
- 然后我想检查每个句子中的正面/负面情绪并相应地计算它们
注意:我不太担心准确性,因为我的数据集很大,也不太担心讽刺。
以下是我遇到的麻烦:
我能找到的所有数据集,例如 NLTK 附带的语料库电影评论数据,都不是 web 服务格式。看起来这已经完成了一些处理。据我所知,处理(由斯坦福大学)是用 WEKA 完成的。NLTK 不可能自己做这一切吗?这里所有的数据集已经被组织成正/负,例如极性数据集http://www.cs.cornell.edu/People/pabo/movie-review-data/这是怎么做的?(按情感来组织句子,肯定是WEKA吗?还是别的什么?)
我不确定我是否理解为什么 WEKA 和 NLTK 会一起使用。似乎他们做的事情大致相同。如果我首先使用 WEKA 处理数据以查找情绪,为什么我需要 NLTK?是否有可能解释为什么这可能是必要的?
我发现了一些与此任务有些接近的脚本,但它们都使用相同的预处理数据。是否可以自己处理这些数据以查找句子中的情绪,而不是使用链接中给出的数据样本?
非常感谢任何帮助,这将为我节省很多头发!
干杯柯
machine-learning - 词袋分类
我需要找到单词训练单词及其分类。简单的分类如。体育娱乐和政治之类的。
我在哪里可以找到单词及其分类。我知道很多大学都做过词袋分类。是否有任何培训示例存储库?
random - 以未知格式对捕获的数据进行分类?
我有大量捕获的数据(可能有数十万条记录),我需要能够对其进行分解,这样我既可以对其进行分类,也可以自己生成“典型”数据。让我进一步解释...
如果我有以下数据字符串:
您可能会开始推断以下内容:
- 可能所有字符串都是 14 个字符长
- 第 4、8、10 和 14 个字符可能始终是字母,而其余字符是数字
- 第一个字符可能始终是“1”
- 第 4 个字符可能总是字母 'T'
- 第 14 个字符可能仅限为“S”或“T”
- 等等...
随着您获得越来越多的真实数据样本,其中一些“规则”可能会消失;如果您看到一个 15 个字符长的字符串,那么您就有证据表明第一条“规则”不正确。但是,给定足够大的字符串样本,长度正好是 14 个字符,您可以开始假设“所有字符串都是 14 个字符长”,并为您的置信度分配一个数字(围绕事实进行适当的假设您正在看到一组适当随机的所有可能捕获的数据)。
正如您可能知道的那样,人类可以通过肉眼进行很多此类分类,但我不知道允许计算机进行分类的库或算法。
给定一组捕获的数据(比上面的要复杂得多......),我可以在我的代码中应用哪些库来为我进行这种分类,从而以给定的置信度识别“规则”?
作为下一步,我需要能够采用这些规则,并使用它们来创建符合这些规则的我自己的数据。我认为这比分类要容易得多,但我以前从未执行过这样的任务,所以我真的不确定它有多复杂。
猜测一下,Python 或 Java(或者可能是 Perl 或 R)可能是最有可能拥有这类库的“通用”语言,而且也许一些生物信息库会做这类事情。我真的不在乎我必须使用哪种语言。我需要尽我所能解决问题。
任何指向信息的指针都会非常有用。正如您可能知道的那样,我正在努力清楚地描述这个问题,并且可能有一组合适的关键字我可以插入谷歌,这将指向我的解决方案。
mysql - 字符串分类策略
我是一个刚刚起步的军事历史网站上的单人开发团队。该网站的一个方面是大约 1,200 场个人战斗的目录,包括参加的国家和编队(团、师等)。
编队信息(以及其他战斗信息)是由一个 10 人的志愿者团队从一系列书籍中手动导入的。这些编队以不同的格式和缩写模式分组列出。在我设置数据收集表单的时候,我想不出处理这些数据的好方法......并选择将它们全部作为字符串存储在 MySQL 数据库中,然后再进行整理。
好吧,“稍后”——因为它往往会发生——已经到来。:-)
每场战斗在数据库中都有 2 条以上的记录 - 每个参与的国家都有一条。每条记录都有一个编队文本字符串,列出了志愿者选择添加时出现的编队。
一些真实的例子:
- 第 39 掷弹兵团,第 26 人民掷弹兵师
- 德国空军第 2 野战师,第 246 步兵师
- 第247步兵师,第255坦克旅
- 德国空军第 2 野战师,党卫军骑兵师
- 第28坦克旅、第158步兵师、第135步兵师、第81坦克旅、第242坦克旅
- 第78步兵师
- 第 3 吴特种海军登陆部队,图拉吉水上飞机基地人员
- 第 505 步兵团第 1 营
最终目标是让每一个单独的部队都有一个ID,这样就可以在整个战斗数据库中追踪其参与。形成层次结构,例如上面的最后一项1st Battalion (of the) 505th Infantry Regiment
也需要保留。在这种情况下,1st Battalion
and505th Infantry Regiment
将被拆分,但1st Battalion
会被标记为属于505th.
在数据库方面,我想我想从当前的战斗信息表中拉出阵型字段并创建三个新表:
解释起来很简单,但实施起来却很复杂。
我从 SO 社区中寻找的只是一些关于如何最好地解决这个问题的提示。理想情况下,有某种我不知道的方法可以解决这个问题。然而,作为最后的手段,我总是可以编写一个分类框架并叫我的志愿者回来对 2,500 多条记录进行分类......
classification - 如何解读weka分类?
我们如何使用朴素贝叶斯解释 weka 中的分类结果?
均值、标准偏差、权重总和和精度是如何计算的?
如何计算 kappa 统计量、平均绝对误差、均方根误差等?
混淆矩阵的解释是什么?
machine-learning - 如何解释 Weka 中的朴素贝叶斯结果?
任何人都请帮助我解释在 weka 中生成的以下结果,以便使用朴素贝叶斯进行分类。
请清楚说明什么是
- 正态分布
- 意思是
- 标准开发
- 权重总和
- 精确。
请帮我。我是weka的新手。
** 朴素贝叶斯分类器
machine-learning - 用于数据分类的机器学习算法。
我正在寻找一些关于我应该研究哪些技术/算法来解决以下问题的指导。我目前有一种算法,可以使用声学指纹对听起来相似的 mp3 进行聚类。在每个集群中,我拥有每个文件的所有不同元数据(歌曲/艺术家/专辑)。对于该集群,我想选择与数据库中现有行匹配的“最佳”歌曲/艺术家/专辑元数据,或者如果没有最佳匹配,则决定插入新行。
对于一个集群来说,一般都有一些正确的元数据,但是个别文件有很多类型的问题:
- 艺术家/歌曲完全错误命名,或只是稍微拼写错误
- 缺少艺术家/歌曲/专辑,但其余信息都在那里
- 这首歌实际上是现场录音,但只有集群中的一些文件被标记为这样。
- 元数据可能很少,在某些情况下只有文件名,可能是艺术家 - song.mp3,或艺术家 - 专辑 - song.mp3,或其他变体
一个简单的投票算法效果很好,但我想要一些我可以在大量数据上训练的东西,这些数据可能会比我现在得到的更多细微差别。任何指向论文或类似项目的链接将不胜感激。
谢谢!