问题标签 [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docker - 在使用 Docker Kitematic 的浏览器上看不到 Ipython 笔记本界面
我在 Kitematic 上找到了数据科学环境图像,因此我安装并尝试使用它。但是虽然我可以成功运行并且日志说
,我打不开localhost:8888
。有人可以帮忙吗?
码头工人端口:8888
MAC IP 端口:192.168.99.100:32768
下面是 Kitematic 上的 Container 日志。
machine-learning - 决策树熵计算目标
我发现了两种类型的几个例子。
单一特征
给定一个只有两个项目类的数据。例如只有蓝色和黄色的球。即在这种情况下我们只有一个特征是颜色。这是显示适用于熵的“分而治之”规则的明显示例。但这对于任何预测或分类问题都是毫无意义的,因为如果我们有一个只有一个特征的对象并且值是已知的,我们不需要一棵树来确定“这个球是黄色的”。
多种功能
给定具有多个特征的数据和要预测的特征(以训练数据而闻名)。我们可以根据每个特征的最小平均熵来计算谓词。更贴近生活,不是吗?在我没有尝试实现算法之前,我很清楚。
而现在我的脑海里有一个碰撞。
如果我们相对于已知特征(每个节点一个)计算熵,那么只有当未知特征严格依赖于每个已知特征时,我们才会在使用树进行分类时得到有意义的结果。否则,单个未绑定的已知特征可能会破坏所有以错误方式驱动决策的预测。但是,如果我们相对于我们想要在分类时预测的特征值计算熵,我们将返回到第一个毫无意义的示例。这样,节点使用哪个已知功能没有区别......
还有一个关于建树过程的问题。
我是否应该只计算已知特征的熵,并且只相信所有已知特征都与未知特征绑定?或者也许我应该计算未知特征(以训练数据已知)的熵来确定哪个特征更影响结果?
r - 在不同的准确性/错误指标之间进行转换
我正在尝试比较几个不同测量指标之间的模型准确性。例如,一些引用使用准确性,而其他引用使用错误。那是相当明显的,但是有很多不同的指标,我不完全确定如何比较其中一些而不失去一些单独的指标完整性。或者是否可以比较一些。我的清单是:
错误率 - 平均绝对误差 - 绝对误差 - 对数损失 - 分类准确度 - 均方根误差 - 分类误差 - F 测量 - 曲线下面积 - 平均测试误差 - 误差百分比 - 错误分类误差 - 测试误差 - 平均测试误差
所以我的问题是如何有效地在这些之间进行转换,如果无法直接转换,则以有意义和准确的方式进行比较和排名。
java - 如何在 weka 和图形训练/测试错误中将分类器从一组应用到另一组
涉及 weka 的两部分问题。
1)一旦我在一个集合上训练了一个分类器,我如何在另一个集合上使用该分类器?
2)我如何在weka中绘制错误率/学习曲线?
截至目前,我正在使用资源管理器工具(GUI)。我已将我的数据集拆分为训练/测试拆分 (60/40)。在我的训练集上运行 10 折交叉验证,现在需要将其应用于测试集。
但是,我不知道如何将我新创建的分类器应用到第二组,也不知道在哪里可以找到我的训练/测试错误数据来绘制图表。
python - 如何在python中规范化一个numpy数组
我有以下 numpy 数组:
现在,我想对每个“列”进行规范化,使值介于 0 和 1 之间。我的意思是,例如,第一列中的值应该介于 0 和 1 之间。
我该怎么做呢?
以上给了我按行归一化
python - clojure 使用 scipy 和 numpy
有没有什么好的方法可以从 clojure 调用 python 作为使用 scipy、numpy、scikit-learn 等进行数据科学的一种方法?
我知道在 python 而不是 java 上运行的 clojure 实现,但这对我不起作用,因为我还需要在我的项目中调用 java 库。我也知道 Jython,但我不知道将它与 Clojure 一起使用的干净方法。
我想在我的项目中使用 Clojure,因为我更喜欢它作为一种语言,但我不能否认 Python 拥有一个令人难以置信的社区,以及一些最漂亮、设计良好的库。
apache-spark - Spark ALS-WR 为所有用户提供相同的推荐项目
我们正在尝试为具有多种商品类型(从快速移动的杂货店到低速移动的电子商品)的超市构建推荐系统。一些物品的购买频率更高,而一些物品只购买一次。
我们拥有来自 100 多个部门的 30K+ SKU 的 25K+ 客户 4 个月的购买历史数据。我们在 Spark 中运行 ALS-WR 来生成建议。令我们惊讶的是,我们收到了针对每个客户的前 15 条建议,这些建议非常笼统,没有太大变化。
我们已经尝试了几种方法来使推荐多样化,如下所示
--计算的“评级”=标准化购买#
-计算的“评级”=购买#的日志
-计算的“评级”=1(如果购买#>1)
-我们有使用以下参数组合 - lambda = 0.01 到 300,alpha = 5 到 50,等级 = 10、20、30 和迭代次数 = 10、20
- 考虑的偏好是明确的。
您认为 ALS 可以用于此类异构数据吗?如果是,哪些修改将使推荐多样化和个性化?
machine-learning - 如何从 CountVectorizer 中过滤特征?
我正在做一个文本分析(主题建模),当我运行它时CountVectorizer
,我得到一堆与我的需求完全无关的数字、日期和位置。我以为我会提供预处理功能,但是用于预处理的 scikit-learn 页面似乎没有我在构建预处理器时需要的任何信息。
r - 在 R 中下载 PDF 需要帮助
在下面的代码中,handle
每次我尝试下载 PDF 时,该部分似乎都会给我一个错误。
我已经没有关于如何下载这些 PDF 的想法了。这是我生成所有 PDF 链接的方式。
ps:如果您能想到其他下载PDF的方法,请分享您的代码。
请注意,某些 URL 可能会出错,因为有时天数和月数小于 10 时没有前导零。