问题标签 [data-munging]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
124 浏览

python - 我如何删除 pandas 中的过滤器数据(Data Munging)

熊猫系列中我的数据:

我需要过滤每个字符串并保存为

我试过使用

0 投票
3 回答
489 浏览

r - 如何根据条件用中值数据替换 R 中的缺失数据

我有来自https://drive.google.com/file/d/0B9YMMvghK2ytSXI4RFo0clNLc28/view的数据

基本上是约 600,000 行的钻石数据集

它缺少一列价格的值。我想用该特定颜色的中位数价格替换 NA 值

我试过这个,但它不工作

我的逻辑有什么问题?

0 投票
0 回答
157 浏览

python - Tika 弄乱了我的文档结构,如何解决?

从一些 PDF 文件中提取文本内容后,我注意到 tika 未对齐文档的文本,例如,我的原始 PDF 文档如下所示:

使用 tika 后:

我怎样才能告诉 tika 保留空白?

0 投票
1 回答
988 浏览

python - 如果数值数据类型列 Pandas 数据框中的值为 str,则打印索引和值

我是数据科学的新手,目前我正在进一步探索。我有超过 600,000 列的数据集,我目前正在清理并检查它是否存在不一致或异常值。我遇到了一个我不知道如何解决的问题。我有一些解决方案,但我不确定如何使用 pandas。

我已将某些列的数据类型从 object 转换为 int。我没有收到任何错误,并检查了它是否在 int 中。我检查了一列的值以检查事实数据。这涉及年龄,我收到一个错误,说我的列有一个字符串。所以我用这个方法检查了它:

print('if there is string in numeric column',np.any([isinstance(val, str) for val in homicide_df['Perpetrator Age']])

现在,我想仅在具有字符串数据类型的列上打印所有索引及其值和类型。

目前我想出了这个工作正常的解决方案:

以下是我的一些问题:

  1. 有没有熊猫的方式来做同样的事情?
  2. 我应该如何将这些元素转换为 int?
  3. 为什么列上的某些元素没有转换为 int?

我将不胜感激任何帮助。非常感谢

0 投票
3 回答
29 浏览

javascript - 从一个对象数组中检索一个扁平的值数组,该对象数组存在于一个顶级对象中,我得到了一个数组

请随意修改标题,我很难解释和搜索。

所以我有一系列“预订”对象。每个 Booking 可以在“Day”对象数组中包含天数。在“Day”对象中有一个“Hours”属性。

我想做的就是遍历 bookings 数组并输出一个扁平的“小时”值数组(这样我就可以在图表中可视化)。

我确信有一个很好的功能或其他干净的方法来做到这一点,而不是使用一系列“for”循环。

任何人?

0 投票
1 回答
26 浏览

javascript - 在连续 CSV 行中获得净值的最佳方法

寻找有关执行以下操作的最佳方法的建议。最好在 python、javascript 或 excel 中使用。数据采用 CSV 格式(尽管我删除了下面的逗号)。我是菜鸟;我应该能够做到,但我认为有一种优雅的方式来做这样的事情,因为它是一个非常基本的操作。

按名称和试验(数据集中的大量试验)净每个数量。

结果将是:

提前致谢!

0 投票
1 回答
24 浏览

python - 使用 MultiIndex with Time 进行子集化

我是 Pandas 中 MultiIndex 的新手,但我有一种情况会有所帮助。我有一个带有 MultiIndex(ON_SCENE 和 LAST)的 df,其结构如下:

我想使用日期和姓氏对这些数据进行子集化,如下所示:

其中 j 是类型datetime.date,Last_Name 是str带有姓氏的 a。不幸的是,我不断收到 KeyError。我也试过:

但这些也给了我一个 KeyErrors。不知道我做错了什么?

0 投票
1 回答
2400 浏览

python - 如何有效地从交易行构造一个亲和矩阵?

给定一个(可能很大~2+GBs)json文件中节点之间的事务,有~百万个节点和~1000万个事务,每个事务有10-1000个节点,例如

将其转换为节点亲和力矩阵的最优雅和最有效的pythonic方法是什么,其中亲和力是节点之间加权事务的总和。

例如

注意:亲和矩阵是对称的,因此仅计算下三角形就足够了。

值不代表***结构示例!

            节点1 | 节点2 | 节点3 | 节点4 | ....
节点1 1 .4 .1 .9 ...节点2
.4 1 .6 .3 ...节点3
.1 .6 1 .7 ...
节点4 .9 .3 .7 1
..... .


0 投票
1 回答
312 浏览

python - 以同样的方式转换一个CSV文件的文件夹,然后用python输出多个数据帧

我有一个 csv 文件文件夹,我需要对其进行转换和操作/清理,输出一个数据框,然后我可以继续使用它。我想要一个我拥有的每个 CSV 文件唯一标题的数据框。我编写了代码,以便能够以我想要的方式仅操作一个 csv 文件,最后使用一个干净的数据框,但是我在尝试遍历文件夹并转换所有文件时遇到了麻烦csv 文件,以每个 csv 的数据帧结尾。

这是我一直在使用的代码:

0 投票
3 回答
359 浏览

python - 使用 python 处理数据:将字符串转换为行

我对python相当陌生,我需要执行一些数据处理。我想要一些关于最佳实践的建议:库、模块、更好的实现代码,或者只是方向。

所以我有一个文本文件,其中的数据按以下格式组织:

即每一行代表相关数据,3个变量,命名为A/B/C。每个新行显示有关相同变量但与另一个对象相关的数据。

所以我的数据在一个文本文件中,我想以以下格式输出:

即变量 A、B 和 C 的数据行,制成表格,以便我可以导出到图形工具包(可能是 Origin Pro)。

这是我到目前为止提出的代码:

这会将数据转换为以下内容:

由于 .split() 显然只在使用 .replace() 在数据之间添加新行之前在每一行上执行。我觉得在我使用 .replace() 之后,我需要再次开始循环执行 .split() 甚至只是 line[2:] 迭代,以删除前导变量名称 - 但后来我想不出我将如何将每一行的数据制成表格以创建列?

有任何想法吗?谢谢!