问题标签 [data-formats]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
204 浏览

hadoop - 将 avro 转换为 parquet 导致 Hive 数据量大幅增加

我想将一天的 avro 数据(~2 TB)转换为镶木地板。

我运行了一个蜂巢查询,数据成功转换为镶木地板。

但是数据大小变成了 6 TB。

数据变成原来的三倍会怎样?

0 投票
2 回答
954 浏览

socket.io - 具有奇怪时间戳格式的 socket.io (?)

我看到对包含参数 t 的 socket.io 的请求类似于 LZywzeV、LZz5lk7 等。

到目前为止,我发现的所有示例都使用了基于秒或毫秒的 UNIX 时间戳。

有没有人见过这样的时间戳格式?(它不是 base64 编码的)。

0 投票
1 回答
7487 浏览

java - 是否可以在不依赖 Hadoop 和 HDFS 的情况下使用 Java 读写 Parquet?

我一直在寻找这个问题的解决方案。

在我看来,如果不引入对 HDFS 和 Hadoop 的依赖,就无法在 Java 程序中嵌入读写 Parquet 格式。这个对吗?

我想在 Hadoop 集群之外的客户端机器上读写。

我开始对 Apache Drill 感到兴奋,但它似乎必须作为一个单独的进程运行。我需要的是使用 Parquet 格式读写文件的进程内能力。

0 投票
1 回答
2147 浏览

python - Keras 为多层感知器正确输入形状

我正在尝试在 keras 中制作一个基本的 MLP 示例。我的输入数据具有形状train_data.shape = (2000,75,75),我的测试数据具有形状test_data.shape = (500,75,75)2000500是训练和测试数据的样本数(换句话说,数据的形状是(75,75),但是有 2000 和 500 条训练和测试数据)。输出应该有两个类。

我不确定为input_shape网络第一层的参数使用什么值。使用 keras 存储库中 mnist 示例中的代码,我有(更新):

其中5625是 75 * 75(模拟 MNIST 示例)。我得到的错误是:

有任何想法吗?

0 投票
1 回答
2269 浏览

localization - NMEA中GGA和RMC语句的区别

我需要 Long/Lat 同时还需要车辆向北的角度。我发现我可以使用 GGA 消息毫无问题地提取 Lon/Lat。但是它并没有给我我需要的角度。

然后我找到了 RMC 消息,这似乎就是我要找的。问题是我不确定两条消息中的 Lon/Lat 是否相同?如果“以度为单位的跟踪角度(真)”是与北方的角度吗?

提前感谢您分享您的经验或想法。

供您观察:

RMC 消息:

https://www.trimble.com/OEM_ReceiverHelp/V4.44/en/NMEA-0183messages_RMC.html

在此处输入图像描述

0 投票
1 回答
2908 浏览

sas - 使用 SAS 格式目录

我在 SAS 中收到了一个数据集和一个格式目录,我试图打开它,但不知何故我没有正确应用格式目录。这是我使用的代码。我研究了 SAS 网站,我认为我有正确的步骤来调用目录,但它不起作用。我确定这是我犯的一个基本错误。

对于每个变量,我在日志中收到以下错误:

0 投票
2 回答
112 浏览

sql - 当我在 SQL INSERT INTO 中提供非日期字符串时,EXCEL TABLE 强制字段为日期

我在一个工作簿(工作簿 A)中使用 Excel (2013) 表,并且我正在使用 SQL INSERT INTO 将工作簿 A 中的一整行数据提取到工作簿 B 中的相同 Excel 表中。工作簿 B 通常会在此期间关闭操作,因此使用数据库连接(读取和写入)和 SQL 是最好的途径。我在 Excel 中使用本机 SQL 引擎,而不是外部数据库引擎。

工作簿 A 中的 Excel 表有 73 个字段,其中包含文本、数字和日期 (DMYHMS) 的混合,尽管该表主要是为通用格式设置的。工作簿 B 是连接到它的工作簿 A 集合的中央数据库。目前,我只测试从工作簿 A 到工作簿 B 的一个连接。

在工作簿 A 中,当我执行 SQL 时INSERT INTO出现错误:

“标准表达式中的数据类型不匹配。” (错误=-2147217913)

经过仔细的消除过程,我现在可以得出结论,工作簿 A 中有一个字段(第 71 个字段)导致了问题,这是“LASTMOD_BY”,它是一个用户 ID,即“12345678”,但是对于一些未知的原因,工作簿 B 预计是一个日期。这特别奇怪,因为我有一个 SUB_BY 字段(提交者),它也是一个用户 ID '12345678',它被接受为文本字符串。为什么 Excel 表会认为 LASTMOD_BY 的相同数据应该是日期?!

阅读这里的许多帖子,大多数用户似乎都希望字符串成为日期:我希望字符串保持为字符串!

在我的一生中,我已经研究并尝试了一切来解决这个问题,但我没有想法!

为了记录,我尝试了以下方法,但没有成功:

  1. 确保 Workbook A 和 Workbook B LASTMOD_BY 字段设置为 General
  2. 确保工作簿 A 和工作簿 B LASTMOD_BY 字段设置为文本
  3. 使工作簿中 LASTMOD_BY 字段中的数据成为数字,然后是文本字段(作为数字,LASTMOD_BY 会引发“溢出”错误,因为用户 ID 太大而不能成为日期值)
  4. 将另一个被接受为文本字段的表字段复制到 LASTMOD_BY 列中,并将其重命名为 LASTMOD_BY,并删除旧的 LASTMOD_BY 列。
  5. 在工作簿 A 和工作簿 B 中,在 LASTMOD_BY 之前的列中插入另一个名为 LASTMODBY 的字段,并提供 LASTMODBY 用户 ID 并从 SQL 语句中省略 LASTMOD_BY(Excel 仍然希望 LASTMODBY 是一个日期!)
  6. 测试表格单元格中的所有值以确保检测到正确的数据类型,然后确保它正确反映在 SQL 语法中(即,如果日期则格式为“日期”;如果文本格式为“文本”;如果数字格式(无单引号))
  7. 从 INSERT INTO 语句中遗漏了 LASTMOD_BY(确实有效),然后添加了一个单独的 UPDATE 语句来设置 LASTMOD_BY 字段(这不起作用)。

如何让工作簿 B 中的 Excel 表接受用户 ID ('LASTMOD_BY') 作为文本而不是日期?

这让我发疯了,我开始得出结论,Excel 表在与嵌入式 SQL 引擎一起使用时存在错误。

对于那些需要查看 SQL 的人,这里是:

仅供参考,SQL 是使用 VBA 构建的。您在上面看到的是我手动编辑的版本(删除任何真实数据)。如果您发现缺少/多余的逗号等,它可能来自我的手动编辑,而不是生成的 SQL!

如果有人能为我解决这个问题,我真的很感激!

干杯

0 投票
0 回答
50 浏览

json - 这个数据格式是什么?

我正在处理来自外部源的 json 数据,出于某种原因,他们在字符串字段中编码了额外的数据,而不是将其放在单独的字段中。这是遵循某种标准吗?我从未见过它,我需要以某种方式解析它。json 看起来像这样:

0 投票
2 回答
3404 浏览

razor - 将 int 转换为货币格式

伙计们。我想问一下是否有任何方法可以对货币格式进行 int 输入?我试过使用

但是,它会显示一个空的

@Html.EditorFor

如果我用

它只会显示 0.00

我想要的是当我输入 10000 时,它会自动格式化为

RP。10.000

在 @Html.EditorFor 字段内。

有什么建议么?

0 投票
2 回答
730 浏览

python - 使用python(numpy memmap,pytables或其他?)对巨大矩阵进行快速下采样

作为数据处理的一部分,我生成了大约 100000*100000 个单元格的巨大非稀疏矩阵,我想将其下采样 10 倍以减少数据量。在这种情况下,我想对 10*10 像素的块进行平均,以将矩阵的大小从 100000*100000 减小到 10000*10000。

使用python最快的方法是什么?是否需要将原始数据保存为新的数据格式对我来说并不重要,因为我必须多次对同一数据集进行下采样。

目前我正在使用 numpy.memmap:

但是对于大文件,这种方法变得非常慢。这可能与这些文件的二进制数据有关,这些文件按行排序。因此,我认为将我的数据存储在块而不是行中的数据格式会更快,但我不确定性能提升会是什么以及是否有支持这一点的 python 包。

在创建如此庞大的矩阵(此处未显示)之前,我还考虑过对数据进行下采样,但是我的输入数据是断裂且不规则的,因此会变得非常复杂。