问题标签 [training-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
neural-network - 用于神经网络训练的数据集
我正在寻找一些相对简单的数据集来测试和比较人工神经网络的不同训练方法。我希望不需要太多预处理的数据将其转换为输入和输出列表的输入格式(标准化为 0-1)。任何链接表示赞赏。
artificial-intelligence - 神经网络对训练数据的响应是否得到保证?
我正在尝试训练一个 ANN(我使用这个库: http: //leenissen.dk/fann/),结果有些令人费解——基本上,如果我在用于训练的相同数据上运行经过训练的网络,输出是不是训练集中指定的,而是一些随机数。
例如,训练文件中的第一个条目类似于
第一行是输入值,第二行是所需的输出神经元的值。但是当我将完全相同的数据提供给经过训练的网络时,每次训练尝试都会得到不同的结果,并且它们与 1 完全不同,例如:
然后再次尝试:
我意识到训练集的大小可能不足(到目前为止我只有大约 100 个输入/输出对),但至少训练数据不应该触发正确的输出值吗?相同的代码适用于 FANN 网站上描述的“入门”XOR 函数(我已经用完了我的 1 个链接限制)
image-processing - 编写用于分析卫星图像的图像处理应用程序
我必须开始应用分析卫星图像来识别一些人造结构。我想为此使用 C 或 Java。
对于卫星,我计划使用谷歌地图数据。
我在这里有三个问题:
- 除了谷歌地图/地球之外,什么是 GIS 数据的最佳来源。
- 考虑到我将不得不使用第三方 API,编写此类应用程序的最佳语言
- 是否有可识别人造结构的开放式图像处理引擎?
那是很多问题,但我希望这里的聪明人可以在这里帮助我。
neural-network - 查找用于训练神经网络的天气数据
我正在寻找一些可用于训练神经网络进行预测的可下载天气数据,我在哪里可以找到一些?基本上,温度、湿度、风速/风向等任何可能有助于神经网络进行简单预测的事物。
machine-learning - General frameworks for preparing training data?
As a student of computational linguistics, I frequently do machine learning experiments where I have to prepare training data from all kinds of different resources like raw or annotated text corpora or syntactic tree banks. For every new task and every new experiment I write programs (normally in Python and sometimes Java) to extract the features and values I need and transform the data from one format to the other. This usually results in a very large number of very large files and a very large number of small programs which process them in order to get the input for some machine learning framework (like the arff files for Weka).
One needs to be extremely well organised to deal with that and program with great care not to miss any important peculiarities, exceptions or errors in the tons of data. Many principles of good software design like design patterns or refactoring paradigms are no big use for these tasks because things like security, maintainability or sustainability are of no real importance - once the program successfully processed the data one doesn't need it any longer. This has gone so far that I even stopped bothering about using classes or functions at all in my Python code and program in a simple procedural way. The next experiment will require different data sets with unique characteristics and in a different format so that their preparation will likely have to be programmed from scratch anyway. My experience so far is that it's not unusual to spend 80-90% of a project's time on the task of preparing training data. Hours and days go by only on thinking about how to get from one data format to another. At times, this can become quite frustrating.
Well, you probably guessed that I'm exaggerating a bit, on purpose even, but I'm positive you understand what I'm trying to say. My question, actually, is this:
Are there any general frameworks, architectures, best practices for approaching these tasks? How much of the code I write can I expect to be reusable given optimal design?
machine-learning - 训练 ANN 时验证数据去哪了?
将训练集的一部分用作验证数据的需求很简单,但我不太清楚应该如何以及在训练的哪个阶段不使用它?
是在训练结束时(在达到训练数据的最小值之后)吗?如果是这样,如果验证数据出现大错误该怎么办?
是否在整个培训过程中(在培训和验证数据的错误都不令人满意时继续寻找最小值)?
无论我尝试什么,当验证集达到一定大小时,网络似乎都难以同时学习训练和验证(我记得在某处读到 70% 训练 30% 验证是一个常见比例,我陷入了困境小得多),而完全用于训练时学习相同的数据没有问题。
training-data - 如何向管理层证明平庸的开发人员正在伤害团队
我在一家小公司的“管理”开发人员团队中处于不稳定的位置。我之所以说“管理”,是因为尽管我分配工作并就他们的表现提供反馈,但我没有办法真正管教个人。
我的一些团队我不知道该怎么办,他们无法独立工作,需要大量的手,当离开时通常会对项目造成严重破坏,通常会导致失败。当失败确实发生时,我只能挽救项目并将其(有时一瘸一拐地)推过终点线。
这些开发人员不仅缺乏编程概念的技能,而且通常缺乏制定代码问题解决方案的能力。像编写循环这样简单的事情对他们来说很困难,更不用说设计和实现问题的解决方案了。
我们尝试过结对编程、提供支付课程费用、购买书籍、将工作日的时间分配给培训,甚至花一整天的时间来培训团队。
另一位高级开发人员和我不知道该怎么做,但我们的生产力因每天与这些人打交道而受到限制。管理层迫使我们给他们工作,他们的主要抱怨是事情做得不够快。
除了我自己和其他高级开发人员之外,我们的管理团队没有人直接与任何开发人员合作。管理层是非技术性的,相信每个开发人员都是平等的,我们显然需要更多的人参与这些项目以更快地完成它们。
我已经在准备一份包含“神话人物月”和“代码完成”部分的文档,以发送给管理层,希望通过统计数据说明真正阻碍我们的是不得不拖着平庸的人完成开发周期。
还有哪些其他资源?书籍、文章、一般建议,任何东西都会有所帮助。
machine-learning - SVM 分类 - 每个类的最小输入集数
我正在尝试构建一个应用程序来检测来自网页的广告图像。一旦我检测到这些,我将不允许它们显示在客户端。
根据我在Stackoverflow question上获得的帮助,我认为 SVM 是实现我目标的最佳方法。
因此,我自己编写了 SVM 和 SMO。我从 UCI 数据存储库获得的数据集有 3280 个实例(链接到数据集),其中大约 400 个来自代表广告图像的类,其余代表非广告图像。
现在我正在获取前 2800 个输入集并训练 SVM。但在查看准确率后,我意识到这 2800 个输入集中的大多数来自非广告图像类。因此,我在该课程中获得了非常好的准确性。
那么我可以在这里做什么?我应该给 SVM 多少个输入集来训练,每个类有多少个输入集?
谢谢。干杯。(基本上提出了一个新问题,因为上下文与我之前的问题不同。神经网络输入数据的优化)
谢谢回复。我想检查我是否正确导出了广告和非广告类的 C 值。请给我反馈。
或者你可以在这里查看文档版本。
你可以在这里看到 y1 eqaul 到 y2 的图表
并且 y1 不等于 y2 这里
neural-network - 人脸检测神经网络训练数据(数据库、人脸数量等)
我正在使用神经网络创建一个人脸检测程序,并寻找一些可靠的训练集。我知道网络上有各种各样的集合,但我不知道它们有多好。任何想法从哪里开始?
image-processing - AdaBoost 算法的训练集
您如何找到 AdaBoost 算法的 Haar 特征的负训练数据集和正训练数据集?因此,假设您想要在图像中定位某种类型的 blob,并且您的整个阵列中有几个 blob - 您将如何训练它?我会尽可能地感谢一个非技术性的解释。我是新手。谢谢。