问题标签 [machine-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parsing - 规范化 NFL 球队名称
这实际上是一个机器学习分类问题,但我想有一个非常好的快速而简单的方法来做到这一点。我想将描述 NFL 球队的字符串(如“San Francisco”或“49ers”或“San Francisco 49ers”或“SF 49ers”)映射到球队的规范名称。(有 32 支 NFL 球队,所以这实际上只是意味着找到 32 个箱中最近的一个来放入给定的字符串。)
传入的字符串实际上并不是完全任意的(它们来自这样的结构化数据源:http ://www.repole.com/sun4cast/stats/nfl2008lines.csv ),因此并不需要像在上面的 49 人示例。
我还应该补充一点,如果有人知道包含拉斯维加斯赔率以及过去几年 NFL 比赛的实际比赛结果的数据来源,那就不需要这样做了。我需要规范化的原因是为了匹配这两个不同的数据集,一个带有赔率,一个带有结果:
非常欢迎关于更好、更可解析的数据源的想法!
补充:子串匹配的想法可能对这个数据就足够了;谢谢!是否可以通过选择距离最近的队名来使其更健壮一些?
machine-learning - 很酷的项目使用遗传算法?
我正在寻找一个使用遗传算法的实际应用程序。想到的一些事情是:
- 网站界面优化
- 使用物理模拟器进行车辆优化
- 遗传编程
- 自动测试用例生成
但没有一个人真的突然出现在我身上。所以如果你有一些空闲时间(几个月)花在遗传算法项目上,你会选择解决什么问题?
math - 从采样的用户名中推断网站用户群规模的方法
假设您想估计一个不公开此信息的站点的用户群规模。
人们更有可能以不同的概率获得不同的用户名。例如,如果系统上不存在用户名“nick”,则它的用户群可能非常小。如果使用用户名“starbaby”,它可能是一个更大的站点。这似乎是一个简单的贝叶斯问题。
存在不同站点可能具有不同的允许用户名空间的问题。我想最大的问题是空格等常见字符的合法性。另一个可能影响之前发布的问题是,网站是否会在你想要的名字被取走时建议名字,或者让你自己想一个更有创意的名字。
您如何建立一个跨不同规模系统的用户名出现频率的训练集?有没有办法使用贝叶斯进行数值估计而不是分类到固定宽度的桶中?
machine-learning - 神经网络结构
我目前正在构建一个神经网络库。为简单起见,我将其构建为对象图。我想知道是否有人可以量化采用基于数组的方法的性能优势。我现在所拥有的对于构建接近任意复杂性的网络非常有效。支持常规(反向支持)网络以及循环网络。我正在考虑将训练有素的网络“编译”成一些“更简单”的形式,例如数组。
我只是想看看那里是否有人有任何实用的建议或构建神经网络的经验,这些神经网络可以很好地部署到生产环境中。让最终产品基于数组而不是基于对象图有什么好处吗?
PS 内存占用不如速度重要。
machine-learning - 有哪些机器学习基准?
您知道哪些机器学习基准测试存储库?
algorithm - 如何按邻近度对集合中的对象进行分组?
我有一个包含数千个地址的集合。如果我可以得到每个地址的经度和纬度,我如何按接近度将集合分成组?
此外,我可能想根据不同的规则重试“集群”:
- N组
- 每组 M 个地址
- 组中任何地址之间的最大距离
java - 什么是最好的开源 Java 贝叶斯垃圾邮件过滤器库?
在 Stackoverflow 的其他答案中,有人建议 Weka 很好,但还有其他答案(Classifier4j、jBNC、Naiban)。
有人对这些有实际经验吗?
machine-learning - 我认为是机器学习问题的最佳方法
我在这里需要一些专家指导,了解什么是我解决问题的最佳方法。我研究了一些机器学习、神经网络和类似的东西。我已经调查了 weka,某种贝斯解决方案.. R.. 几种不同的东西。不过,我不确定如何真正进行。这是我的问题。
我拥有或将拥有大量事件......最终大约有 100,000 个左右。每个事件由几个(30-50)个自变量和一个我关心的因变量组成。在确定因变量的值时,一些自变量比其他变量更重要。而且,这些事件与时间相关。今天发生的事情比十年前发生的事情更重要。
我希望能够为某种学习引擎提供一个事件,并让它预测因变量。然后,知道这个事件(以及之前发生的所有事件)的因变量的真正答案,我希望它可以训练后续的猜测。
一旦我知道了编程方向,我就可以进行研究并弄清楚如何将我的想法转化为代码。但我的背景是并行编程,而不是这样的东西,所以我很想对此有一些建议和指导。
谢谢!
编辑:这里有更多关于我要解决的问题的详细信息:这是一个定价问题。假设我想预测一本随机漫画书的价格。价格是我唯一关心的。但是可以想出很多自变量。是超人漫画还是凯蒂猫漫画。它几岁了?什么条件?等等等等。经过一段时间的训练,我希望能够给它关于我可能正在考虑的漫画书的信息,并让它给我一个合理的漫画书期望值。好的。所以漫画书可能是一个虚假的例子。但你得到了一般的想法。到目前为止,从答案来看,我正在对支持向量机和朴素贝叶斯进行一些研究。感谢您迄今为止的所有帮助。
statistics - 机器学习有哪些经济上重要的应用?
如果这太模糊,请提前道歉。
到目前为止我的清单:
- 统计套利
- 精算学
- 制造过程控制
- 图像处理(安全、制造、医学成像)
- 计算生物学/药物设计
- 军刀计量学
- 收益管理
- 运筹学/物流(我将包括商业智能)
- 营销(偏好预测、调查设计/分析、在线广告服务)
- 计算语言学(谷歌,信息检索,...)
- 教育测试
- 流行病学
- 犯罪学(欺诈检测、反恐……)
- 消费者信用评分
- 垃圾邮件检测
- 错误发现、病毒检测、计算机安全
有没有解决这个问题的文章、书籍或期刊?我看过的唯一一本书是 Supercrunchers,它只关注消费者的偏好。
math - 如何开始信息提取?
您能否推荐一条培训路径来开始并在信息提取方面变得非常出色。我开始阅读它来做我的一个爱好项目,并很快意识到我必须擅长数学(代数、统计、概率)。我已经阅读了一些关于不同数学主题的介绍性书籍(非常有趣)。寻求一些指导。请帮忙。
更新:只是为了回答其中一条评论。我对文本信息提取更感兴趣。