“data-handling”的相关标签问题

0 投票

3 回答

499 浏览

r - 如何将此垂直数据集转换为水平数据集？

我想改变这个数据集：

到这个数据集：

像这样。

我试图用 mutate 函数制作这个数据集。但效果不佳。我怎样才能改变这样的数据集？

r transpose data-handling

2019-09-10T05:38:23.050

0 投票

1 回答

75 浏览

mysql - 用于索引表的 OR 和 IN 运算符的替代方案

我正在处理的mysql查询如下：

我已经在列（“line_item_usage_start_date”）上应用了索引，但是在运行查询时索引不起作用并且解释类型是“ALL”并且没有使用键。仅当 where 子句采用“OR”或“IN”运算符时，索引才起作用。列的数据类型是： line_item_product_code : TEXT line_item_unblended_cost : DOUBLE product_region : TEXT line_item_usage_start_date : TIMESTAMP 我这个查询的主要目标是：优化仪表板中的快速响应查询，我有这个 192 列和 9m+ 行的 csv 大小的表13+ GB。我想索引将解决我处理这个查询的问题。是否有这些运营商的替代品或任何其他解决方案？

mysql database indexing data-handling

2019-09-27T15:58:44.930

0 投票

1 回答

156 浏览

c - 大型数据集的高效输出格式？

我编写了一个将输出写入文件的程序。输出为 6 列 n 行格式，所有值均为双精度浮点数。在我的代码中，n 变得非常大（1e20 左右）是很常见的，因此，输出数据文件也变得非常大。

我目前以 *.csv 格式存储所有内容，这显然会产生巨大的数据文件。有没有更有效的方法来存储这些值？任何新的文件格式或任何可以显着减小文件大小的新方法？

为了澄清：数据不需要是人类可读的，二进制就可以了。我将进一步处理文件中的数据以从运行中获取一些重要参数，可能是行进距离、特定点的退出时间等。代码实际上是运动粒子的天体物理模拟，大约 1e10 个粒子每个时间步数百万，它的大小变得相当高。

c file file-writing data-handling

2019-10-08T12:36:47.677

0 投票

1 回答

364 浏览

reactjs - 反应：总是获取数据或保存数据前端

所以我正在用 React 开发一个 IoT SaaS 项目。用户选择一个传感器和一个时间范围，并以大约 5 分钟的分辨率接收以图表形式显示的数据。我的问题是关于在前端处理获取和保存此数据时的最佳实践。我一直尝试获取工作正常的方法，但会使系统有点慢。当用户在传感器之间快速来回切换时尤其如此。我也尝试过保存数据，就像反应状态下的 json 一样。这显着提高了性能，但还有很多其他问题。浏览器开始抱怨 ram 的使用，有时会出现内存不足的错误。还有很多需要的数据处理，例如为同一个传感器保存多个非连续数据范围，定位和合并日期范围重叠等......

所以我想知道这里的最佳做法是什么，我应该总是在前端获取还是保存？有没有我可以使用的框架来帮助我处理数据前端，或者我必须手动执行此操作。

reactjs iot data-handling

2019-11-11T15:01:02.607

0 投票

1 回答

187 浏览

python - 当我有太多但需要全部数据时，如何预处理我的数据？

我从大学毕业几个月就获得了 CS 学士学位，我的老板让我构建一个机器学习代理，在两个月内自己从头开始将数据分类为 23 个类别。我上了一堂人工智能入门课程，我们甚至没有涵盖神经网络。我想我已经弄清楚了基础知识，但是我在准备数据以输入模型时遇到了麻烦。

随意评论这个（不）可行性，但这是上下文信息，而不是我的问题。我拥有的配电盘类型设备的数据类型示例是 1 列 DeviceID（数字字符串，每个设备唯一）、12 列各种整数，指示正在使用哪些插座以及正在拉多少功率，以及与设备所在位置相关的整数。我有大量这类数据，我一直在想我可以使用带有 softmax 层的 RNN 来分类我的类别。这将是监督学习。提到的列将是输入，整数 1-23 将是输出。我需要模型查看时间范围并对其进行分类，其中包括不同数量的行，因为有不同数量的设备，并且因为每个设备每分钟创建一行两次。例如，

我的问题是：对于我从 SQL 数据库中提取的一个 35 分钟的示例时间范围——时间范围可以从 1 分钟到几个小时不等——我得到了 3,747 个不同的行。这显然太多了，无法将模型作为 1 个样本提供。如果电源条上的使用情况从 1 分钟到下一分钟没有变化，它将创建几行相同的行，但时间戳除外。当我删除时间戳时，我得到了 333 个不同的行。这似乎仍然很多，而且它正在删除必要的时间数据。

我的问题是：这真的太多了吗？我从谷歌搜索中知道我可以使用多行使其工作，但是当我不知道有多少行时我可以这样做吗？即，不是说“看 X 行”，而是说“看 X 分钟的行”作为 1 个样本？在这种情况下，经验丰富的开发人员（或数据科学家？Idek）会怎么做？作为一种替代方法，而不是尝试使用时间框架（由我们正在做的数据/工作确定），我想我可以尝试在 [请告知] 分钟内使用滑动窗口，从中获取输出并使用那些作为输入以获取时间范围内的输出。这是一个可怕的想法吗？那还能用吗？该模型需要能够检测到由于一天中的时间、不同的人等造成的差异。

谢谢！

python machine-learning recurrent-neural-network softmax data-handling

2019-12-02T21:36:27.180

0 投票

1 回答

35 浏览

pandas - 转换 pandas 中的数据类型并删除不必要的行

我想在文件中删除不必要的行，但我的原始数据中的数据类型被声明为对象。我尝试使用 .astype 对其进行转换，但它似乎不起作用。

在此处输入图像描述

我只需要看起来像这样的数据：

其他一切都是不必要的。

pandas pandas-groupby data-handling

2020-02-07T15:33:08.850

0 投票

1 回答

303 浏览

r - 制作坐标向量来过滤特定区域内的数据

Rookie R 用户在这里，我将非常感谢您能给我的任何帮助。

我的项目要求我在我选择的城市周围创建一个矢量边界框，然后过滤大量数据，因此我只有与该区域相关的数据。然而，我使用 R studio 已经有好几年了，公平地说，我对这门语言几乎一无所知。

我最初使用

geocode("Hereford, UK")

bbox <-c(Longitude=-2.72,Latitude=52.1)

myMap <- get_map(location = "Hereford, UK",source="google",maptype="roadmap")

然后，我必须创建一个新的 tibble，它会过滤掉并仅将相关数据提供给该区域。

我不确定如何进行此操作，然后我必须将数据覆盖到我创建的地图上。

由于我只有一个坐标中心点，是否可以在我的位置中心周围创建一个半径为 3 英里的圆，以便我可以过滤这个区域？

感谢大家花时间阅读我的帖子。干杯!

r ggmap geocode data-handling get-mapping

2020-04-12T00:13:20.190

0 投票

1 回答

60 浏览

python - 如何创建每另一列的前一行为1时增加1的ID

使用 Python，我需要创建两个新变量。

一个（参见示例中的 JourneyID），每次另一列的前一行取值“1”时，累积增加一个，并且

一个（参见示例中的 JourneyN），每次另一列的前一行取值“1”时累积增加一个，但每次响应者 ID 增加 1 时从 1 重新开始。

返回 df[JourneyID] = [1,1,1,2,1,1,3,1,4] 当它应该返回 [1,1,2,2,3,3,3,4,4] 的 ID .

任何帮助是极大的赞赏。

python pandas primary-key calculated-columns data-handling

2020-04-15T12:12:56.170

0 投票

1 回答

44 浏览

python - 如何在将“聚合”列分配给新列时对两列进行分组？

我正在使用 Python，我需要先“聚合”列“R”然后“J”，这样对于每个 R，每一行都是唯一的“J”。

我不想丢失 C 中的数据，所以我需要为 T=1 创建名为 C1 的新列，为 T=2 创建名为 C2 的新列，为 T=3 创建名为 C2 的新列，将相应的数据从 C 写入 C1， C2 或 C3 使用 T。

所以我需要从：

PS。如果有帮助，J 列和 T 列都有一个具有唯一 ID 的额外列。

任何帮助将不胜感激。

python pandas dataframe pandas-groupby data-handling

2020-04-17T11:04:29.077

0 投票

2 回答

390 浏览

python - 如何对具有非数字值的数据框进行分组和旋转

我正在使用 Python，我有一个包含 6 列的数据集，R、Rc、J、T、Ca 和 Cb。我需要“聚合”列“R”然后是“J”，这样对于每个 R，每一行都是唯一的“J”。Rc 是 R 的特征。Ca 和 Cb 是 T 的特征。看下表会更有意义。

我需要从：

我不想丢失 Rc、Ca 或 Cb 中的数据。

Rc（或以'c'结尾的每一列）对于每个R都是相同的，因此可以与R分组。

但是 Ca 和 Cb（或以“C”开头的每一列）对于每个 T 都是唯一的，它们将被聚合或丢失。当 T=1 时，这些需要保存在名为 Ca(T=1) 的新列中，当 T=2 时保存在 Ca(T=2) 中，当 T=3 时保存在 Ca(T=3) 中。Cb 也是如此。

因此，使用 T，我需要为给定 T 的每个 Ca 和 Cb 创建 T 个列，将 Ca 和 Cb 中的数据写入新列。

PS。如果有帮助，J 列和 T 列都有一个具有唯一 ID 的额外列。

到目前为止我尝试了什么：

问题：只可能与其中一个 C 相关，而我失去了 Rc。

任何帮助将不胜感激！

python pandas dataframe group-by data-handling

2020-04-20T09:09:06.683

问题标签 [data-handling]

Reference