问题标签 [data-wrangling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在 pandas DataFrame 中平均重复而不是使用 drop_duplicates 来保持第一
假设我有一个Pandas DataFrame
形式:
我有一个名为的列id
,它有duplicates
. 我想duplicates
通过保留 aunique
id
然后执行 the 的平均值price
而id
不是使用pd.DataFrame.drop_duplicates()
这是我的预期输出:
我怎么可能处理这个?
r - 将数据帧的数字列(到达和离开时间之间的差异)转换为分钟
亲爱的 R 社区成员,我想根据通勤者从起点到目的地的出发和到达时间(到达时间 - 出发时间)之间的差异(24 小时格式)创建一个新变量(通勤时间)。
但是,问题在于该列是数字,超过 30 分钟的值不会被捕获为分钟。我希望我的通勤时间是几分钟而不是几小时。以下是我的数据集的格式。
当我计算出发和到达时间之间的差异时,超过 30 分钟的事情会变得很奇怪,这是你当然希望发生的。我的数据框有 6,670 个条目,这些列是唯一有问题的东西。950 和 1000 之间的差异应该转化为 9:50 和 10:00 的差异,因此差异不能是 50。如倒数第二行所示,1750 和 1800 之间的差异不应产生 50。
非常感谢您的及时帮助。
谢谢!!!
r - 如何在不同年份使用 for 循环并将多个地块放在一起?
https://www.kaggle.com/nowke9/ipldata ---- 包含数据集。
我对 R 编程相当陌生。这是针对 IPL 数据集进行的探索性研究。(上面附加数据的链接)在将两个文件与“id”和“match_id”合并后,我试图绘制不同城市的球队赢得的比赛之间的关系。
然而,由于 12 季已经结束,我得到的输出无助于做出充分的结论。为了绘制每年之间的关系,需要使用 for 循环。现在,所有 12 年的输出都显示在一个图表中。
如何纠正这个错误并使用适当的配色方案为每年绘制单独的图表?
输出如下:-
所需的输出是:- 12 个单独的图形在一个代码中,具有适当的颜色方案。提前谢谢了。
r - 插入符号 CV 中的平均预测值
我想使用 R 中的插入符号获得跨 CV 重复的平均预测值。
现在我想获得每个示例的所有 10 个预测的平均值。我可以通过迭代以下示例来做到这一点,但我认为必须有更好的更整洁的方式。
编辑
按照@Obim 的回答,我测试了三个提议的解决方案的时间安排。dplyr
版本更快。请注意,我稍微修改了sapply
版本,在唯一性上添加了一个排序,rowINdex
以保持其输出的一致性和可解释性。
python - 如何根据键列将数据框中的新行添加到另一行
我的 df1 类似于下图中的第一个表,其中键列是名称。我想从另一个数据框 df2 添加新行,该数据框只有名称、年份和值列。应根据名称添加新行。其他列只会重复每个名称的相同值。结果应类似于下图中的第二个表格。我怎样才能在熊猫中做到这一点?
python - 无法从网页中提取带有熊猫的嵌套表体
我正在尝试使用带有代码的熊猫从 url ' http://gsa.nic.in/report/janDhan.html ' 中提取嵌套表:
但是它只打印表格的标题。请指导。我是新手,不想使用beautifulsoup。如果熊猫不能完成预期的任务,那为什么?
pyspark - 当一列中的值在另一列中时标记数据
我正在尝试根据 2 个条件在我的数据集中创建一个标志,第一个很简单。CheckingCol = CheckingCol2。
第二个更复杂。我有一个名为 TranID 的列和一个名为 RevID 的列。
如果 RevID 位于 TranID AND CheckingCol = CheckingCol2 中,则该标志应返回“是”。否则,标志应返回“否”。
我的数据如下所示:
预期的结果是:
我试过使用:
但它没有用,我无法在网上找到任何关于如何做到这一点的信息。
任何帮助都会很棒!
pandas - 如何使用 Python pandas 处理数据整理问题中的 -inf 值
在 python 中进行数据处理时,使用 csv 文件中的 pandas,如何处理在为百分比变化计算创建列时可能出现的 -inf 值?假设您有一个使用 pandas 作为数据框加载到 python 的数据。然后,您创建另一列,该列在数据中的任意两列之间具有百分比变化的值。您检查的某些值是 -inf。如何处理它们,尤其是当您清理要作为训练数据集提供的数据时。
r - 如何在R中添加来自相同记录ID但具有多个名称的变量?
当我尝试整理数据时,我有一个问题。我有一个如下数据框:
对于每个唯一 ID,除位置外,所有列都相同。我想将表格旋转成这样:
我想删除重复的 ID 并将不同的位置一起移动到一列中。我试过 pivot_wider() 函数,但没有成功。如果有人可以提供帮助,我将不胜感激。谢谢!