问题标签 [data-handling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
57 浏览

python - 数据透视表错误“无法分配给操作员”

运行“无法分配给操作员”下面的代码时出现此错误

我想汇总所有不以 A 开头的列,并按照此处的建议将所有数据写入以 A 开头的列中:

如何对具有非数字值的数据框进行分组和旋转

任何帮助将不胜感激。

0 投票
2 回答
87 浏览

r - 删除具有每个级别少于 5 个观测值的因子的列

我有一个由 100 多列组成的数据集,所有列都是类型因子。前任:

在我的数据集中,我需要删除所有具有每个级别少于 5 个观察值的因子的列。在此示例中,如果我想删除每个级别的观察量小于或等于1blue或的所有列cat,则该算法将删除列animalcolor。最优雅的方法是什么?

0 投票
1 回答
129 浏览

python - 如何处理房地产数据中的缺失值?

我正在使用属性数据集,并且正在尝试处理 Land Square Feet Column 中的缺失值。数据集中有近 160000 条记录。其中 70000 条记录缺少 LandSquareFeet。我还有一个功能可以说明建筑物的类型。当建筑类型是 CONDO/Walkup 时,我在 LandSquareFeet 中有很多缺失值。在 LandsquareFeet 中有 47k 条公寓类型的记录,其中有 44k 条缺失值的记录。电梯/步行公寓的大部分物业也是如此。其他类别的建筑物在 LandSquareFeet 中缺少非常少的记录。我对如何处理缺少的 Landsquarefeet 功能感到困惑。如果我删除缺少 LandSquareFeet 的记录,我将丢失几乎一半的数据集。我不知道删除所有记录的功能是否明智。我做了一个 Little's MCAR 测试来确定它是否是 MCAR,但我得到的 p 值为 0.000,所以它不是 MCAR。是 MAR 吗?任何有关如何处理此问题的线索都会有所帮助。

0 投票
2 回答
47 浏览

sql - 针对多个类别中的项目的总价格分组

考虑以下数据:

如果我根据类别对数据进行分组,则会出现以下统计信息

现在,如果我必须总结价格,实际总和将为45但根据显示的类别的总和将不同,即90。因此,两种表示都表示不同的统计数据,但它们以自己的方式是正确的。

寻找这个问题的答案:我将如何表示这样的统计数据。例如,Top 上的总数为 45,但各个类别的总和为 90。我的意思是,这不会让最终用户感到困惑吗?

除了为每个项目选择一个类别之外,关于如何解决这个问题的任何建议?

0 投票
1 回答
86 浏览

python - 为 ML 注释文本数据后如何进行?

我目前正在做一个项目,我想对一些文本进行分类。为此,我首先必须注释文本数据。我使用网络工具完成了它,现在有了相应的 json 文件(包含注释)和纯 txt 文件(包含原始文本)。我现在想使用不同的分类器来训练数据并最终预测所需的结果。

但是,我正在努力从哪里开始。我还没有真正在互联网上找到我一直在寻找的东西,所以这就是我在这里尝试的原因。

我将如何处理 json 和 txt。文件?据我了解,我必须以某种方式将这些信息转换为 .csv,其中我有关于标签、文本的信息,但对于未注释的文本,也有“无”。所以我想这就是我使用 .txt 文件以某种方式将它们与注释文件合并并能够检测文本句子(或单词)是否具有标签的原因。然后我可以使用 .csv 数据将其加载到模型中。

有人可以给我一个关于从哪里开始或我现在应该如何进行的提示吗?到目前为止,我发现的所有内容都涵盖了数据已经转换并准备好进行预处理的情况,但我正在努力处理注释过程的结果。

我的 JSON 看起来像这样:

每个文本都有一个classIde_1在这种情况下)和一个field_value(在这种情况下f_4给定值3)。我需要逐步提取它。首先提取具有相应文本的实体(并在没有注释的地方添加“无”),然后在第二步中检索具有相应文本的字段信息。对应的.txt文件就是这样:这是文本

我在一个文件夹中有所有 .json 文件,在另一个文件夹中有所有 .txt 文件。

0 投票
2 回答
390 浏览

time-series - 哪个时间序列数据库更适合传感器数据 - InfluxDb 或 Prometheus

我在许多博客中搜索过它,但似乎所有博客都存在偏见。我自己现在对 Prometheus 有一点偏见,但是,我没有找到任何好的文章来解释 Prometheus 用于传感器数据的用例。

就我而言,我们制造物联网设备,我们有很多数据进来。到目前为止,我们一直在使用 MongoDB,但现在我想切换到时间序列数据库,但我真的很困惑,我是否可以选择普罗米修斯与否。

我很乐意编写自己的度量转换器,它可以将我的传感器数据转换为 Prometheus 度量格式(如果某些东西不存在)

0 投票
3 回答
42 浏览

r - 当我只有每个单元格的值(每个单元格可能有多个字符串)及其列和行索引时,如何创建数据框?

我有一个数据框,包括每个单元格的值(可能不止一个值)以及行和列索引。

我想得到类似于以下data.frame的东西:

但是,我什么也做不了,我也没有在网上找到解决方案。我无法找到将值带到数据框中相应位置的解决方案,我认为单元格可以包含不同数量的值是一个更大的挑战。

谢谢你的帮助。

0 投票
0 回答
52 浏览

java - 如何从 .dat 文件中读取整数/双精度数据类型?

如何从 .dat 文件中读取整数/双精度数据类型?我使用 Java 程序创建了一个二进制文件并将一个 int 数据写入其中,现在我正在尝试使用 Notepad/MS Word 打开该文件,它显示的字符等效于 int 数的 ASCII 值请帮助。例如。int I = 77 当我在记事本/MS Word 中打开 .dat 文件时,它显示 - C

0 投票
2 回答
65 浏览

csv - 处理 CSV 文件中包含逗号的数据

我有一个CSV文件,我试图从Mosaic Decisions中的Amazon S3读取该文件。该文件包含一个地址列,其中数据本身包含一个逗号

文件中的示例数据如下所示:

在这种情况下,地址字段被分成 3 列作为地址,Missing_header_0,Missing_header_1,数据被读取为

这会破坏实际数据并覆盖下一列数据我们如何避免这种情况?

0 投票
1 回答
85 浏览

r - 抓取 HTML 时将值从网站添加到表格

这是我需要的数据:

https://www.lpi.usra.edu/meteor/metbull.php?sea=%2A&sfor=names&ants=&nwas=&falls=&valids=&stype=contains&lrec=200&map=ge&browse=&country=All&srt=name&categ=Ungrouped+achondrites&mblist=All&rect =&photo=&strewn=&snew=0&pnt=Normal%20table&dr=&page=0

我已经将表格导入到 R 中:

然而,我需要在表格中再添加一件事。对于某些陨石,有可用的氧同位素值。当点击“地块”部分下的陨石名称时,可以看到这一点。单击绘图时,我们会被重定向到具有三个同位素值的页面。我想要做的是在我的表中添加三列,其中包含每个陨石各自的同位素值。我尝试分别为每个“情节”部分编写代码,但我觉得可能有一个更优雅的解决方案。