问题标签 [data-wrangling]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

709 问题

0 投票

1 回答

12 浏览

python - 在 pandas DataFrame 中平均重复而不是使用 drop_duplicates 来保持第一

假设我有一个Pandas DataFrame形式：

我有一个名为的列id，它有duplicates. 我想duplicates通过保留 aunique id然后执行 the 的平均值price而id不是使用pd.DataFrame.drop_duplicates()

这是我的预期输出：

我怎么可能处理这个？

2020-04-14T10:22:16.793

0 投票

2 回答

225 浏览

python - 如何每行仅合并一次数据框

抱歉，我对这一切都很陌生，所以请原谅我可能提出的任何愚蠢问题。

我正在尝试使用熊猫合并来自salesforce的一些报告，

我有两个报告：

劳工报告和工厂报告

并想制作：综合报告

我尝试合并、连接和对齐数据框，但是，因为两者共享相同的索引，我的工厂报告的第一行重复了 5 次，即：

错误合并报告

我的下一个想法是使用 .align()，然后使用 .duplicated() 返回一个布尔系列，显示哪些行重复，并清除重复行的内容。如果我要使用这种方法，我怎么能清除一行的内容？

此外，这似乎效率低下且难以做到，还有更优雅的解决方案吗？

干杯

python pandas data-wrangling

2020-04-16T02:48:51.790

0 投票

1 回答

49 浏览

r - 将数据帧的数字列（到达和离开时间之间的差异）转换为分钟

亲爱的 R 社区成员，我想根据通勤者从起点到目的地的出发和到达时间（到达时间 - 出发时间）之间的差异（24 小时格式）创建一个新变量（通勤时间）。

但是，问题在于该列是数字，超过 30 分钟的值不会被捕获为分钟。我希望我的通勤时间是几分钟而不是几小时。以下是我的数据集的格式。

当我计算出发和到达时间之间的差异时，超过 30 分钟的事情会变得很奇怪，这是你当然希望发生的。我的数据框有 6,670 个条目，这些列是唯一有问题的东西。950 和 1000 之间的差异应该转化为 9:50 和 10:00 的差异，因此差异不能是 50。如倒数第二行所示，1750 和 1800 之间的差异不应产生 50。

非常感谢您的及时帮助。

谢谢！！！

r ggplot2 tidyverse lubridate data-wrangling

2020-04-16T07:51:16.847

0 投票

2 回答

130 浏览

r - 如何在不同年份使用 for 循环并将多个地块放在一起？

https://www.kaggle.com/nowke9/ipldata ---- 包含数据集。

我对 R 编程相当陌生。这是针对 IPL 数据集进行的探索性研究。（上面附加数据的链接）在将两个文件与“id”和“match_id”合并后，我试图绘制不同城市的球队赢得的比赛之间的关系。

然而，由于 12 季已经结束，我得到的输出无助于做出充分的结论。为了绘制每年之间的关系，需要使用 for 循环。现在，所有 12 年的输出都显示在一个图表中。

如何纠正这个错误并使用适当的配色方案为每年绘制单独的图表？

输出如下：-

所需的输出是：- 12 个单独的图形在一个代码中，具有适当的颜色方案。提前谢谢了。

r for-loop ggplot2 data-wrangling

2020-04-16T13:30:28.940

0 投票

1 回答

77 浏览

r - 插入符号 CV 中的平均预测值

我想使用 R 中的插入符号获得跨 CV 重复的平均预测值。

现在我想获得每个示例的所有 10 个预测的平均值。我可以通过迭代以下示例来做到这一点，但我认为必须有更好的更整洁的方式。

编辑

按照@Obim 的回答，我测试了三个提议的解决方案的时间安排。dplyr版本更快。请注意，我稍微修改了sapply版本，在唯一性上添加了一个排序，rowINdex以保持其输出的一致性和可解释性。

r cross-validation r-caret data-wrangling

2020-04-16T22:46:23.630

0 投票

1 回答

36 浏览

python - 如何根据键列将数据框中的新行添加到另一行

我的 df1 类似于下图中的第一个表，其中键列是名称。我想从另一个数据框 df2 添加新行，该数据框只有名称、年份和值列。应根据名称添加新行。其他列只会重复每个名称的相同值。结果应类似于下图中的第二个表格。我怎样才能在熊猫中做到这一点？

在此处输入图像描述

python pandas data-wrangling

2020-04-17T09:00:41.047

0 投票

2 回答

281 浏览

python - 无法从网页中提取带有熊猫的嵌套表体

我正在尝试使用带有代码的熊猫从 url ' http://gsa.nic.in/report/janDhan.html ' 中提取嵌套表：

但是它只打印表格的标题。请指导。我是新手，不想使用beautifulsoup。如果熊猫不能完成预期的任务，那为什么？

python pandas web-scraping data-wrangling

2020-04-17T16:39:47.503

0 投票

1 回答

43 浏览

pyspark - 当一列中的值在另一列中时标记数据

我正在尝试根据 2 个条件在我的数据集中创建一个标志，第一个很简单。CheckingCol = CheckingCol2。

第二个更复杂。我有一个名为 TranID 的列和一个名为 RevID 的列。

如果 RevID 位于 TranID AND CheckingCol = CheckingCol2 中，则该标志应返回“是”。否则，标志应返回“否”。

我的数据如下所示：

预期的结果是：

我试过使用：

但它没有用，我无法在网上找到任何关于如何做到这一点的信息。

任何帮助都会很棒！

pyspark data-wrangling

2020-04-17T16:46:31.173

0 投票

1 回答

147 浏览

pandas - 如何使用 Python pandas 处理数据整理问题中的 -inf 值

在 python 中进行数据处理时，使用 csv 文件中的 pandas，如何处理在为百分比变化计算创建列时可能出现的 -inf 值？假设您有一个使用 pandas 作为数据框加载到 python 的数据。然后，您创建另一列，该列在数据中的任意两列之间具有百分比变化的值。您检查的某些值是 -inf。如何处理它们，尤其是当您清理要作为训练数据集提供的数据时。

pandas data-wrangling

2020-04-18T15:59:10.973

0 投票

1 回答

193 浏览

r - 如何在R中添加来自相同记录ID但具有多个名称的变量？

当我尝试整理数据时，我有一个问题。我有一个如下数据框：

对于每个唯一 ID，除位置外，所有列都相同。我想将表格旋转成这样：

我想删除重复的 ID 并将不同的位置一起移动到一列中。我试过 pivot_wider() 函数，但没有成功。如果有人可以提供帮助，我将不胜感激。谢谢！

r dataframe data-wrangling

2020-04-18T17:02:07.137

1 2 3 4 5 6 7 8 9 10

问题标签 [data-wrangling]

Reference