问题标签 [data-handling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何将此垂直数据集转换为水平数据集?
我想改变这个数据集:
到这个数据集:
像这样。
我试图用 mutate 函数制作这个数据集。但效果不佳。我怎样才能改变这样的数据集?
mysql - 用于索引表的 OR 和 IN 运算符的替代方案
我正在处理的mysql查询如下:
我已经在列(“line_item_usage_start_date”)上应用了索引,但是在运行查询时索引不起作用并且解释类型是“ALL”并且没有使用键。仅当 where 子句采用“OR”或“IN”运算符时,索引才起作用。列的数据类型是: line_item_product_code : TEXT line_item_unblended_cost : DOUBLE product_region : TEXT line_item_usage_start_date : TIMESTAMP 我这个查询的主要目标是:优化仪表板中的快速响应查询,我有这个 192 列和 9m+ 行的 csv 大小的表13+ GB。我想索引将解决我处理这个查询的问题。是否有这些运营商的替代品或任何其他解决方案?
c - 大型数据集的高效输出格式?
我编写了一个将输出写入文件的程序。输出为 6 列 n 行格式,所有值均为双精度浮点数。在我的代码中,n 变得非常大(1e20 左右)是很常见的,因此,输出数据文件也变得非常大。
我目前以 *.csv 格式存储所有内容,这显然会产生巨大的数据文件。有没有更有效的方法来存储这些值?任何新的文件格式或任何可以显着减小文件大小的新方法?
为了澄清:数据不需要是人类可读的,二进制就可以了。我将进一步处理文件中的数据以从运行中获取一些重要参数,可能是行进距离、特定点的退出时间等。代码实际上是运动粒子的天体物理模拟,大约 1e10 个粒子每个时间步数百万,它的大小变得相当高。
reactjs - 反应:总是获取数据或保存数据前端
所以我正在用 React 开发一个 IoT SaaS 项目。用户选择一个传感器和一个时间范围,并以大约 5 分钟的分辨率接收以图表形式显示的数据。我的问题是关于在前端处理获取和保存此数据时的最佳实践。我一直尝试获取工作正常的方法,但会使系统有点慢。当用户在传感器之间快速来回切换时尤其如此。我也尝试过保存数据,就像反应状态下的 json 一样。这显着提高了性能,但还有很多其他问题。浏览器开始抱怨 ram 的使用,有时会出现内存不足的错误。还有很多需要的数据处理,例如为同一个传感器保存多个非连续数据范围,定位和合并日期范围重叠等......
所以我想知道这里的最佳做法是什么,我应该总是在前端获取还是保存?有没有我可以使用的框架来帮助我处理数据前端,或者我必须手动执行此操作。
python - 当我有太多但需要全部数据时,如何预处理我的数据?
我从大学毕业几个月就获得了 CS 学士学位,我的老板让我构建一个机器学习代理,在两个月内自己从头开始将数据分类为 23 个类别。我上了一堂人工智能入门课程,我们甚至没有涵盖神经网络。我想我已经弄清楚了基础知识,但是我在准备数据以输入模型时遇到了麻烦。
随意评论这个(不)可行性,但这是上下文信息,而不是我的问题。我拥有的配电盘类型设备的数据类型示例是 1 列 DeviceID(数字字符串,每个设备唯一)、12 列各种整数,指示正在使用哪些插座以及正在拉多少功率,以及与设备所在位置相关的整数。我有大量这类数据,我一直在想我可以使用带有 softmax 层的 RNN 来分类我的类别。这将是监督学习。提到的列将是输入,整数 1-23 将是输出。我需要模型查看时间范围并对其进行分类,其中包括不同数量的行,因为有不同数量的设备,并且因为每个设备每分钟创建一行两次。例如,
我的问题是:对于我从 SQL 数据库中提取的一个 35 分钟的示例时间范围——时间范围可以从 1 分钟到几个小时不等——我得到了 3,747 个不同的行。这显然太多了,无法将模型作为 1 个样本提供。如果电源条上的使用情况从 1 分钟到下一分钟没有变化,它将创建几行相同的行,但时间戳除外。当我删除时间戳时,我得到了 333 个不同的行。这似乎仍然很多,而且它正在删除必要的时间数据。
我的问题是:这真的太多了吗?我从谷歌搜索中知道我可以使用多行使其工作,但是当我不知道有多少行时我可以这样做吗?即,不是说“看 X 行”,而是说“看 X 分钟的行”作为 1 个样本?在这种情况下,经验丰富的开发人员(或数据科学家?Idek)会怎么做?作为一种替代方法,而不是尝试使用时间框架(由我们正在做的数据/工作确定),我想我可以尝试在 [请告知] 分钟内使用滑动窗口,从中获取输出并使用那些作为输入以获取时间范围内的输出。这是一个可怕的想法吗?那还能用吗?该模型需要能够检测到由于一天中的时间、不同的人等造成的差异。
谢谢!
pandas - 转换 pandas 中的数据类型并删除不必要的行
我想在文件中删除不必要的行,但我的原始数据中的数据类型被声明为对象。我尝试使用 .astype 对其进行转换,但它似乎不起作用。
我只需要看起来像这样的数据:
其他一切都是不必要的。
r - 制作坐标向量来过滤特定区域内的数据
Rookie R 用户在这里,我将非常感谢您能给我的任何帮助。
我的项目要求我在我选择的城市周围创建一个矢量边界框,然后过滤大量数据,因此我只有与该区域相关的数据。然而,我使用 R studio 已经有好几年了,公平地说,我对这门语言几乎一无所知。
我最初使用
geocode("Hereford, UK")
bbox <-c(Longitude=-2.72,Latitude=52.1)
myMap <- get_map(location = "Hereford, UK",source="google",maptype="roadmap")
然后,我必须创建一个新的 tibble,它会过滤掉并仅将相关数据提供给该区域。
我不确定如何进行此操作,然后我必须将数据覆盖到我创建的地图上。
由于我只有一个坐标中心点,是否可以在我的位置中心周围创建一个半径为 3 英里的圆,以便我可以过滤这个区域?
感谢大家花时间阅读我的帖子。干杯!
python - 如何在将“聚合”列分配给新列时对两列进行分组?
我正在使用 Python,我需要先“聚合”列“R”然后“J”,这样对于每个 R,每一行都是唯一的“J”。
我不想丢失 C 中的数据,所以我需要为 T=1 创建名为 C1 的新列,为 T=2 创建名为 C2 的新列,为 T=3 创建名为 C2 的新列,将相应的数据从 C 写入 C1, C2 或 C3 使用 T。
所以我需要从:
PS。如果有帮助,J 列和 T 列都有一个具有唯一 ID 的额外列。
任何帮助将不胜感激。
python - 如何对具有非数字值的数据框进行分组和旋转
我正在使用 Python,我有一个包含 6 列的数据集,R、Rc、J、T、Ca 和 Cb。我需要“聚合”列“R”然后是“J”,这样对于每个 R,每一行都是唯一的“J”。Rc 是 R 的特征。Ca 和 Cb 是 T 的特征。看下表会更有意义。
我需要从:
我不想丢失 Rc、Ca 或 Cb 中的数据。
Rc(或以'c'结尾的每一列)对于每个R都是相同的,因此可以与R分组。
但是 Ca 和 Cb(或以“C”开头的每一列)对于每个 T 都是唯一的,它们将被聚合或丢失。当 T=1 时,这些需要保存在名为 Ca(T=1) 的新列中,当 T=2 时保存在 Ca(T=2) 中,当 T=3 时保存在 Ca(T=3) 中。Cb 也是如此。
因此,使用 T,我需要为给定 T 的每个 Ca 和 Cb 创建 T 个列,将 Ca 和 Cb 中的数据写入新列。
PS。如果有帮助,J 列和 T 列都有一个具有唯一 ID 的额外列。
到目前为止我尝试了什么:
问题:只可能与其中一个 C 相关,而我失去了 Rc。
任何帮助将不胜感激!