问题标签 [machine-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - 如何检测来自各种来源的表格数据
在我正在玩的一个实验项目中,我希望能够查看文本数据并检测它是否包含表格格式的数据。当然有很多情况看起来像表格数据,所以我想知道我需要研究什么样的算法来寻找共同特征。
我的第一个想法是编写一个长的 switch/case 语句来检查由制表符分隔的数据,然后是另一个 case 来检查由管道符号分隔的数据,然后是另一个 case 来检查以另一种方式分隔的数据等等。现在我当然意识到我必须列出要检测的不同事物的列表-但我想知道是否有比对每种类型进行相对较慢的搜索更智能的方法来检测这些特征。
我意识到这个问题并不是特别雄辩地提出,所以我希望它有一些意义!
有任何想法吗?
(也不知道如何标记这个 - 所以欢迎帮助!)
matlab - 如何在 MATLAB 中更改 newfit() 的默认参数?
我在用
生成一个新的神经网络。validation checks
数量的默认值为6
。
我正在训练很多网络,这需要很多时间。我想如果我的结果可以做得更快,我的结果是否不太准确也没关系。
我怎样才能训练得更快?
- 我相信其中一种方法可能是减少验证检查次数的价值。我该怎么做(在代码中,不使用 GUI)
- 有没有其他提高速度的方法。
正如我所说,速度的提高可能会稍微降低准确性。
matlab - 神经网络中的竞争学习
我正在玩一些神经网络模拟。我想让两个神经网络共享输入和输出节点(其他节点是不同的,并且是两条不同路线的一部分)来竞争。有没有我应该看的示例/标准算法?这个问题适合这个网站吗?
现在我正在使用阈值来区分两条路线,但我想同时激活它们并让他们通过使用遍历每条路线所花费的时间来决定('这个模拟对我们两个来说不够大')因素。
更新:
感谢 Gacek 和 Amro,
Gacek - 我不是机器学习学生....../这是我第一次实现神经网络的经验......那么你所说的“质量系数”是什么意思?
Amro - 对不起......我不应该在问题中使用“竞争性学习”......会尝试改变它并可能添加一些数据。我想要做的是建立两个共享输入并产生相同输出的网络(不是定性的)......它们实际上连接到相同的输出神经元。也许您可以将其视为具有两条路径或路径的单个网络,并且我试图根据信息从刺激节点沿两条路径传播到响应神经元所需的时间来做出选择。
machine-learning - libsvm 模型文件格式
根据这个常见问题解答,libsvm 中的模型格式应该很简单。事实上,当我打电话给 just 时svm-train
。例如,a1a
数据集的第一个 SV 是
另一方面,如果我使用easy.py
脚本,我的第一个 SV 最终会是:
这是一个在我的训练集中根本不存在的实例!事实上,如果我这样做:
没有任何具有 119:-1 的实例(即使它只是+1
与交换-1
,也没有任何具有 119:1 和 118:1 的实例 - 缺少的属性为零)
如果我做这个源代码修改,我清楚地看到在前一种情况下(仅svm-train
涉及)第一个 SV 也是第一个实例。但是在后一种情况下(即使用easy.py
脚本),应该给我哪个实例是 SV 的输出被吃掉了grid.py
这里发生了什么?
machine-learning - 可用的无监督分类方法
我正在做一项涉及“无监督分类”的研究。基本上我有一个 trainSet,我想以无监督的方式对 X 个类中的数据进行聚类。Idea 类似于 k-means 所做的。
比方说
Step1) featureSet 是一个 [1057x10] 矩阵,我想将它们聚类成 88 个聚类。
Step2) 使用之前计算的类来计算testData是如何分类的
问题 - 是否可以使用 SVM 或 NN 来做到这一点?还要别的吗 ?- 还有其他建议吗?
machine-learning - 实现线性二进制 SVM(支持向量机)
我想实现一个简单的 SVM 分类器,在高维二进制数据(文本)的情况下,我认为简单的线性 SVM 是最好的。自己实现它的原因基本上是我想了解它是如何工作的,所以使用库不是我想要的。
问题是大多数教程都涉及一个可以作为“二次问题”解决的方程,但它们从未展示过实际的算法!那么,您能否指出我可以学习的一个非常简单的实现,或者(更好)指向一个一直到实现细节的教程?
非常感谢!
artificial-intelligence - 当输入的数量可变时,如何使用神经网络?
我看到的所有神经网络示例都是针对一组固定的输入,它适用于图像和固定长度的数据。您如何处理可变长度数据,例如句子、查询或源代码?有没有办法将可变长度的数据编码为固定长度的输入,并且仍然获得神经网络的泛化特性?
python - Any python Support Vector Machine library around that allows online learning?
I do know there are some libraries that allow to use Support vector Machines from python code, but I am looking specifically for libraries that allow one to teach it online (this is, without having to give it all the data at once).
Are there any?
machine-learning - 从图像中提取主要/最常用的颜色
我想提取图像中最常用的颜色,或者至少是主色调你能推荐我如何开始这项任务吗?或指向我类似的代码?我一直在寻找它,但没有成功。
machine-learning - 关于使用机器学习工具 Weka 的问题
我正在使用 Weka 的资源管理器功能进行分类。
所以我有我的 .arff 文件,具有 NUMERIC 值的 2 个特征,我的类是二进制 0 或 1(例如 {0,1})。
样本:
我加载这个 .arff 文件,使用 10 倍交叉验证(无测试文件),然后选择 NaiveBayes,然后我对数据进行分类,它给了我:5 个错误标记,100 个正确标记。到现在为止还挺好。
现在,我显着更改了我的 .arff 文件(为我的特征属性提供完全随机的值)。重复上述操作,我在分类时得到完全相同的统计数据。
我尝试对我的 .arff 文件进行更多更改,使用不同的分类算法。尽管如此,无论我给我的 .arff 文件赋予什么值,完全相同的统计数据(在相同的算法中)。
我在这里做错了吗?