问题标签 [data-wrangling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
12 浏览

python - 在 pandas DataFrame 中平均重复而不是使用 drop_duplicates 来保持第一

假设我有一个Pandas DataFrame形式:

我有一个名为的列id,它有duplicates. 我想duplicates通过保留 aunique id然后执行 the 的平均值priceid不是使用pd.DataFrame.drop_duplicates()

这是我的预期输出:

我怎么可能处理这个?

0 投票
2 回答
225 浏览

python - 如何每行仅合并一次数据框

抱歉,我对这一切都很陌生,所以请原谅我可能提出的任何愚蠢问题。

我正在尝试使用熊猫合并来自salesforce的一些报告,

我有两个报告:

劳工报告工厂报告

并想制作: 综合报告

我尝试合并、连接和对齐数据框,但是,因为两者共享相同的索引,我的工厂报告的第一行重复了 5 次,即:

错误合并报告

我的下一个想法是使用 .align(),然后使用 .duplicated() 返回一个布尔系列,显示哪些行重复,并清除重复行的内容。如果我要使用这种方法,我怎么能清除一行的内容?

此外,这似乎效率低下且难以做到,还有更优雅的解决方案吗?

干杯

0 投票
1 回答
49 浏览

r - 将数据帧的数字列(到达和离开时间之间的差异)转换为分钟

亲爱的 R 社区成员,我想根据通勤者从起点到目的地的出发和到达时间(到达时间 - 出发时间)之间的差异(24 小时格式)创建一个新变量(通勤时间)。

但是,问题在于该列是数字,超过 30 分钟的值不会被捕获为分钟。我希望我的通勤时间是几分钟而不是几小时。以下是我的数据集的格式。

当我计算出发和到达时间之间的差异时,超过 30 分钟的事情会变得很奇怪,这是你当然希望发生的。我的数据框有 6,670 个条目,这些列是唯一有问题的东西。950 和 1000 之间的差异应该转化为 9:50 和 10:00 的差异,因此差异不能是 50。如倒数第二行所示,1750 和 1800 之间的差异不应产生 50。

非常感谢您的及时帮助。

谢谢!!!

0 投票
2 回答
130 浏览

r - 如何在不同年份使用 for 循环并将多个地块放在一起?

https://www.kaggle.com/nowke9/ipldata ---- 包含数据集。

我对 R 编程相当陌生。这是针对 IPL 数据集进行的探索性研究。(上面附加数据的链接)在将两个文件与“id”和“match_id”合并后,我试图绘制不同城市的球队赢得的比赛之间的关系。

然而,由于 12 季已经结束,我得到的输出无助于做出充分的结论。为了绘制每年之间的关系,需要使用 for 循环。现在,所有 12 年的输出都显示在一个图表中。

如何纠正这个错误并使用适当的配色方案为每年绘制单独的图表?

输出如下:-

所需的输出是:- 12 个单独的图形在一个代码中,具有适当的颜色方案。提前谢谢了。

0 投票
1 回答
77 浏览

r - 插入符号 CV 中的平均预测值

我想使用 R 中的插入符号获得跨 CV 重复的平均预测值。

现在我想获得每个示例的所有 10 个预测的平均值。我可以通过迭代以下示例来做到这一点,但我认为必须有更好的更整洁的方式。

编辑

按照@Obim 的回答,我测试了三个提议的解决方案的时间安排。dplyr版本更快。请注意,我稍微修改了sapply版本,在唯一性上添加了一个排序,rowINdex以保持其输出的一致性和可解释性。

0 投票
1 回答
36 浏览

python - 如何根据键列将数据框中的新行添加到另一行

我的 df1 类似于下图中的第一个表,其中键列是名称。我想从另一个数据框 df2 添加新行,该数据框只有名称、年份和值列。应根据名称添加新行。其他列只会重复每个名称的相同值。结果应类似于下图中的第二个表格。我怎样才能在熊猫中做到这一点?

在此处输入图像描述

0 投票
2 回答
281 浏览

python - 无法从网页中提取带有熊猫的嵌套表体

我正在尝试使用带有代码的熊猫从 url ' http://gsa.nic.in/report/janDhan.html ' 中提取嵌套表:

但是它只打印表格的标题。请指导。我是新手,不想使用beautifulsoup。如果熊猫不能完成预期的任务,那为什么?

0 投票
1 回答
43 浏览

pyspark - 当一列中的值在另一列中时标记数据

我正在尝试根据 2 个条件在我的数据集中创建一个标志,第一个很简单。CheckingCol = CheckingCol2。

第二个更复杂。我有一个名为 TranID 的列和一个名为 RevID 的列。

如果 RevID 位于 TranID AND CheckingCol = CheckingCol2 中,则该标志应返回“是”。否则,标志应返回“否”。

我的数据如下所示:

预期的结果是:

我试过使用:

但它没有用,我无法在网上找到任何关于如何做到这一点的信息。

任何帮助都会很棒!

0 投票
1 回答
147 浏览

pandas - 如何使用 Python pandas 处理数据整理问题中的 -inf 值

在 python 中进行数据处理时,使用 csv 文件中的 pandas,如何处理在为百分比变化计算创建列时可能出现的 -inf 值?假设您有一个使用 pandas 作为数据框加载到 python 的数据。然后,您创建另一列,该列在数据中的任意两列之间具有百分比变化的值。您检查的某些值是 -inf。如何处理它们,尤其是当您清理要作为训练数据集提供的数据时。

0 投票
1 回答
193 浏览

r - 如何在R中添加来自相同记录ID但具有多个名称的变量?

当我尝试整理数据时,我有一个问题。我有一个如下数据框:

对于每个唯一 ID,除位置外,所有列都相同。我想将表格旋转成这样:

我想删除重复的 ID 并将不同的位置一起移动到一列中。我试过 pivot_wider() 函数,但没有成功。如果有人可以提供帮助,我将不胜感激。谢谢!