问题标签 [weka]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
artificial-intelligence - 初学者资源/分类算法介绍
大家。我对分类算法这个话题完全陌生,需要一些关于从哪里开始“认真阅读”的好建议。我现在正在寻找机器学习和自动分类算法是否值得添加到我的一些应用程序中。
我已经浏览了 Z. Michalewicz 和 D. Fogel 的“How to Solve It: Modern heuristics”(特别是关于使用神经网络的线性分类器的章节),并且在实际方面,我目前正在浏览WEKA 工具包源代码。我的下一个(计划中的)步骤将是深入贝叶斯分类算法领域。
不幸的是,我在这个领域缺乏一个严肃的理论基础(更不用说,到目前为止已经以任何方式使用过它),所以任何关于下一步看哪里的提示都将不胜感激;特别是,很好地介绍可用的分类算法会很有帮助。多做工匠少做理论家,越实用越好……
提示,有人吗?
php - 使用 PHP 进行文本挖掘
我正在为我正在上的大学课程做一个项目。
我正在使用 PHP 构建一个简单的 Web 应用程序,该应用程序根据一组字典将推文分类为“积极”(或快乐)和“消极”(或悲伤)。我现在想到的算法是朴素贝叶斯分类器或决策树。
但是,我找不到任何 PHP 库可以帮助我进行一些严肃的语言处理。Python 有 NLTK ( http://www.nltk.org )。PHP有类似的东西吗?
我打算使用 WEKA 作为 Web 应用程序的后端(通过在 PHP 中的命令行中调用 Weka),但它似乎效率不高。
你知道我应该为这个项目使用什么吗?还是我应该切换到 Python?
谢谢
xml - 如何在 WEKA 中导入 XML 文件
我想在weka中导入一堆xml数据。是否有简单的解决方案或教程,或者我必须将其转换为 csv 或 arff 文件格式?
nlp - 使用示例数据或 Web 服务使用 NLTK python 对句子进行情感分析?
我正在着手进行情绪分析的 NLP 项目。
我已经成功地为 python 安装了 NLTK(这似乎是一个很棒的软件)。但是,我无法理解如何使用它来完成我的任务。
这是我的任务:
- 我从一个很长的数据开始(让我们从他们的网络服务中说数百条关于英国大选主题的推文)
- 我想把它分解成句子(或信息不超过 100 个左右的字符)(我想我可以在 python 中做到这一点??)
- 然后在所有句子中搜索该句子中的特定实例,例如“David Cameron”
- 然后我想检查每个句子中的正面/负面情绪并相应地计算它们
注意:我不太担心准确性,因为我的数据集很大,也不太担心讽刺。
以下是我遇到的麻烦:
我能找到的所有数据集,例如 NLTK 附带的语料库电影评论数据,都不是 web 服务格式。看起来这已经完成了一些处理。据我所知,处理(由斯坦福大学)是用 WEKA 完成的。NLTK 不可能自己做这一切吗?这里所有的数据集已经被组织成正/负,例如极性数据集http://www.cs.cornell.edu/People/pabo/movie-review-data/这是怎么做的?(按情感来组织句子,肯定是WEKA吗?还是别的什么?)
我不确定我是否理解为什么 WEKA 和 NLTK 会一起使用。似乎他们做的事情大致相同。如果我首先使用 WEKA 处理数据以查找情绪,为什么我需要 NLTK?是否有可能解释为什么这可能是必要的?
我发现了一些与此任务有些接近的脚本,但它们都使用相同的预处理数据。是否可以自己处理这些数据以查找句子中的情绪,而不是使用链接中给出的数据样本?
非常感谢任何帮助,这将为我节省很多头发!
干杯柯
classification - 如何解读weka分类?
我们如何使用朴素贝叶斯解释 weka 中的分类结果?
均值、标准偏差、权重总和和精度是如何计算的?
如何计算 kappa 统计量、平均绝对误差、均方根误差等?
混淆矩阵的解释是什么?
machine-learning - 如何解释 Weka 中的朴素贝叶斯结果?
任何人都请帮助我解释在 weka 中生成的以下结果,以便使用朴素贝叶斯进行分类。
请清楚说明什么是
- 正态分布
- 意思是
- 标准开发
- 权重总和
- 精确。
请帮我。我是weka的新手。
** 朴素贝叶斯分类器
weka - 使用 Weka 过滤属性
我有一个关于在 WEKA 中过滤属性的简单问题。
假设我有 500 个属性、30 个类和 100 个样本,每个类等于 3000 行和 500 列。这会导致时间和内存问题,您可以猜到。
如何过滤 3000 行中仅出现一次或两次(或 n 次)的属性。这是个好主意吗?
谢谢
java - 使用 MOA 对新示例进行分类?
我正在尝试使用 java 机器学习库 MOA 对训练数据流进行训练,然后预测测试数据流的类。第一部分工作正常,使用(例如)
java -cp .:moa.jar:weka.jar -javaagent:sizeofag.jar moa.DoTask "LearnModel -l MajorityClass -s (ArffFileStream -f atrain.arff -c -1) -O amodel.moa"
但是后来我无法弄清楚如何在另一个流(atest.arff)上使用经过训练的模型(amodel.moa)来预测类。有没有人这样做过?
machine-learning - 如何故意过拟合 Weka 树分类器?
我有一个二进制类数据集(0 / 1),对“0”类有很大的倾斜(大约 30000 对 1500)。每个实例有 7 个特征,没有缺失值。
当我使用 J48 或任何其他树分类器时,几乎所有“1”实例都被错误分类为“0”。
将分类器设置为“未修剪”,将每个叶子的最小实例数设置为 1,将置信度因子设置为 1,添加一个带有实例 ID 号的虚拟属性——所有这些都没有帮助。
我只是无法创建一个过度拟合我的数据的模型!
我也尝试了 Weka 提供的几乎所有其他分类器,但得到了类似的结果。
使用 IB1 可以获得 100% 的准确率(trainset on trainset),因此具有相同特征值和不同类的多个实例不是问题。
如何创建完全未修剪的树?或者以其他方式迫使 Weka 过度拟合我的数据?
谢谢。
更新:好的,这很荒谬。我只使用了大约 3100 个负例和 1200 个正例,这就是我得到的树(未修剪!):
不用说,IB1 仍然提供 100% 的精度。
更新 2:不知道我是怎么错过的 - 未修剪的 SimpleCart 工作并在火车上提供 100% 准确度的火车;修剪后的 SimpleCart 不像 J48 那样有偏见,并且具有不错的误报率和误报率。
java - Eclipse - 为现有项目设置 .classpath 文件
我有一个java项目。来自其他人的 Eclipse 项目的工作文件夹(我认为这是一个 Repast Simphony 项目)。
在我的 Eclipse 中,我创建了一个新的 Java 项目并告诉它使用现有的代码。所以它似乎已经引入了所有的代码。
但是,在加载项目后,我收到此错误:
它有一个包含以下内容的 .classpath 文件:
到目前为止我已经尝试过:
我安装了 Weka 3-7。然后我更新了 .classpath 文件以说出以下内容并重新加载了项目。
但现在我收到错误消息:
请帮忙。我被困住了。