问题标签 [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 为什么我的数据中的第三个四分位数小于平均值?
我将一个名为 gob 的数据集加载到 R 中并尝试了方便的summary
功能。请注意,第三个四分位数小于平均值。怎么会这样?是我的数据大小还是其他类似的东西?
我已经尝试为digits 参数传入一个较大的值(例如10),但这并不能解决问题。
请注意,对于 gob$100201.D,平均值是 0.0000878,但第三个 Qu。= 0。
hadoop - 大数据和数据挖掘有什么区别?
正如维基百科所说
数据挖掘过程的总体目标是从数据集中提取信息并将其转换为可理解的结构以供进一步使用
这与大数据有什么关系?如果我说 Hadoop 以并行方式进行数据挖掘,是否正确?
algorithm - 从 3 个变量和数据生成价格数据
我正在尝试提出一种基于 3 个变量生成价格的算法。我必须想出一种从一些数据中提取它的方法。
例如,我正在尝试计算二手车的价格。3个变量将是:
- 汽车的品牌(即本田思域)
- 汽车年(即2006年)
- 公里驱动(即200,000 KM)
我会提供从列表站点中提取的数据。我将拥有的数据与上面的数据以及上市价格相同。
然后,用户可以选择品牌、年份和行驶公里数,它将根据该数据生成平均价格。
任何想法都会有所帮助!我正在使用 MySQL 数据库在 PHP 上创建它。
非常感谢!
machine-learning - 对神经网络的输入进行归一化有什么好处?
对神经网络的输入进行归一化有什么好处?
我注意到它会降低梯度,但我不确定它是否真的能带来好的结果。
r - R中用于文本分类的SVM
我正在使用 SVM 对我的文本进行分类,其中我实际上并没有得到结果,而是得到了数值概率。
数据框(1:20 训练集,21:50 测试集)
更新:
使用的代码:
预期结果:
概率为的结果:
编辑 1:如何实现标签名称而不是 SVM 标签编号。
python - 如何使用 matplotlib 在 python 中绘制时间戳?
我一直在整个谷歌上搜索这个,但看起来我无法找到我正在寻找的东西。
所以,基本上,我有两个列表:一个列表包含时间戳数据,第二个列表包含对应的值。
现在我的问题是:我的时间戳采用以下格式
那么,使用哪种时间格式matplotlib
呢?我试图直接绘制这个,但它给了我:
我可以datetime.datetime.strptime
用来转换它吗?如果不是,那么另一种方法是什么?
以正确的格式转换后timestamp
,我应该如何绘制新转换的时间戳及其对应的值?
我可以使用matplotlib.pyplot.plot(time, data)
还是必须使用plot_date
方法来绘制它?
python - Spark [Python] - 在 Windows 中读取本地文件
我想将本地文件读入火花。我正在使用 Windows。使用了以下命令:
我尝试了所有可能的组合,但不断收到以下或非常相似的错误。
我尝试了以下方法:
添加文件:/// 和文件://
添加文件:\\和文件:\
D:/sample.txt
D:\sample.txt
D:\sample.txt
当前工作目录是 D:\ 并且文件存在于 D:\
任何人的想法?
另外,我们在使用 Windows 时是否总是在命令行中使用反斜杠?还是仅用于目录?
非常感谢,科比
machine-learning - 机器学习的真实世界示例?
最近,我在 Coursera 教授 Andrew Ng 教授机器学习课程。完成本课程后,我了解了机器学习算法的基础知识,但我有以下问题:
我在哪里可以找到真实世界的机器学习用例示例?
机器学习项目的工业/生产中使用了哪些工具或框架?机器学习模型如何在生产中使用或部署?
如何成为数据科学家?或者我接下来应该做什么?
任何建议、书籍、课程或教程链接将不胜感激。
r - 将具有各种长度向量的列表转换为 R 中的 data.frame 的最简单方法
这里我有一个不同长度向量的列表。我想要一个data.frame。我在 SO 中看到了很多关于它的帖子(参见 ref),但没有一个像我预期的那么简单,因为这确实是数据预处理中的一项常见任务。谢谢你。
这里最简单的意思as.data.frame(aa)
是它是否有效。因此,R 基础包中的一个功能会很棒。sapply(aa, "length<-", max(lengths(aa)))
实际上有四个功能。
一个例子如下所示。
输入:
输出:
A 和 B 是 data.frame 的名称。
一个答案是sapply(aa, '[', seq(max(sapply(aa, length))))
,但它也很复杂。
参考: