问题标签 [data-science]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 可以做些什么来以最有效的方式在这里获得连续计数?
我是 Python 数据科学的初学者。我正在处理点击流数据并尝试计算给定会话中项目的连续点击次数。我在“块”列中获得累积总和。之后,我在 Block 上进行聚合以获取每个块的计数。最后,我想对 Session 和 Item 进行分组并汇总块数,因为可能存在某些情况(此处为 Sid=6),其中一个项目首先连续出现 m 次,然后在其他项目之后再次出现,它连续出现 n 次。所以连续计数应该是'm+n'。
这是数据集-
这是我的代码-
machine-learning - ScikitLearn 从管道内的 FeatureUnion 中提取特征名称
我正在使用 SKlearn 的 Pipeline 模型来提取和构建一个统一的特征,然后将其发送到随机森林分类器,而一些特征提取器可以在以后删除或添加,请考虑以下结构:
我想通过检查来改进随机森林的预测
RandomForstRegressor 的属性
我设法使用以下方法获取列表:
现在我想在 feature_importances_ 索引中的列号与管道中的功能名称/步骤之间动态链接。
是否有首选方法来保存/检索功能联合中的功能名称?你会如何解决这个问题?
python - Pandas 中的索引错误
我无法在索引中找出错误。我相信这一定是一个愚蠢的错误。我想将这些行的“td”值设置为 0,其“块”大小为 1。我首先找出这些行,然后使用这些索引将“td”列的值设置为 0。这是样本数据集。在这里,除了第 5、7、8 号块之外,所有其他块的值都应在“td”列中设置为 0。
这是我的代码。我得到了意想不到的输出。
预期输出-
python - 如何优化这个在点击流中查找会话持续时间的循环?
我是 Python 数据科学的初学者,我正在做点击流分析。我的文件太大——大约 3300 万行。我正在运行我制作的这个脚本来查找会话持续时间。我正在打印 i 以查找操作的进度。然而,将近 12 个小时过去了,我只达到了 400 000。它有近 900 万次会话。以这种速度,将需要将近 270 小时(11 天)。我需要对此进行优化以减少时间。
这是数据集:
这是我的代码。我认为 for 循环正在减慢操作速度。对于会话持续时间,我首先在每个会话中找到最大和最小时间戳。然后在 for 循环中,我将它们转换为 seconds.microseconds,然后在 Tstamp 列中同时更新最后的减法。
可以做些什么来优化此代码。
编辑 1:删除了微秒部分。
macos - 拆分 shell 命令不会拆分 CSV 文件 (Mac)
我想用来split
将一个 5 GB 的 CSV 文件分成多个文件。我正在测试该split
命令是否适用于较小的文件,因此我创建了一个以test
以下信息命名的 CSV 文件:
我跑:
而且我希望创建五个或更多名为xaa
,xab
等的文件。相反,我看到一个文件,其中所有行都命名为xaa
. 我也尝试过这样做,gsplit
我得到了相同的结果。
关于如何调试或如何使其工作的任何建议?我假设这是默默地失败。
machine-learning - 机器学习和显式编程之间的区别
我是数据科学领域的新手。所以我试图一步一步地了解他的基础知识。在他最重要的领域中,我们发现了机器学习。
我找到了这个定义:
“机器学习是一个研究领域,它赋予机器学习能力而无需明确编程。”
对我来说仍然很模糊的是我们如何才能让机器在没有编程的情况下学习!
谁能帮我说清楚?
r - 设置 R-Studio 外观
我想让我的代码易于阅读。例如,我想将 hist 函数的参数设置为红色(绘图和中断为红色),并将它们的值设置为蓝色(FALSE 和蓝色为 20)-- hist(plot = FALSE, allzips$centile,breaks = 20)。有谁知道在 R-studio 中设置哪些参数?我一直在外表上玩了很多,但从来没有得到修复。
谢谢,
卡尔比
python - 如何通过我的分类器获得前 5 个主题的精度?
我有 22465 个测试文档,我将它们分类为 88 个不同的主题。我正在使用 predict_proba 来获得前 5 个预测主题。那么如何打印这 5 个主题的精度?
为了准确起见,这就是我正在做的事情:
为了准确性
如何以相同的方式找到前 5 个主题的精确度?Scikit 指标拒绝使用
machine-learning - Web登录时间戳的时间序列预测
如果我必须建立一个时间序列预测模型,而我所拥有的只是用户登录网站时的一系列时间戳,你如何对其建模?
这是数据的前几行。我有这个作为熊猫系列。
现在有几个问题:
1)。当我只有时间戳并且没有 Y 值或任何其他功能时,如何按小时绘制用户行为
2)。建立一个适合这个时间序列的模型并预测接下来的两周。
没有给出其他特征或变量。每天只需登录时间大约 3 个月。
machine-learning - 获得良好的交叉验证分数但非常差的 Roc_auc 分数
我对此很陌生,所以任何类型的信息都会有所帮助。抱歉,如果我问了一个非常琐碎的问题。我正在研究一个有很多零的中型数据集。我们应用了很多模型,k=10 的 cv-skf 得分已经超过 0.85,但 roc_auc 得分停留在 0.5 左右。我正在使用sklearn。下面是代码片段。
输出 - 从 numpy 和 matplotlib test.csv train.csv 填充交互式命名空间
0.502140359687
对于 cv-skf -
输出 - 数组([ 0.83124251, 0.84162387, 0.83580491])
我们将 .csv 文件提交为 -