“data-formats”的相关标签问题

0 投票

1 回答

204 浏览

hadoop - 将 avro 转换为 parquet 导致 Hive 数据量大幅增加

我想将一天的 avro 数据（~2 TB）转换为镶木地板。

我运行了一个蜂巢查询，数据成功转换为镶木地板。

但是数据大小变成了 6 TB。

数据变成原来的三倍会怎样？

2016-04-16T14:28:57.660

0 投票

2 回答

954 浏览

socket.io - 具有奇怪时间戳格式的 socket.io (?)

我看到对包含参数 t 的 socket.io 的请求类似于 LZywzeV、LZz5lk7 等。

到目前为止，我发现的所有示例都使用了基于秒或毫秒的 UNIX 时间戳。

有没有人见过这样的时间戳格式？（它不是 base64 编码的）。

socket.io timestamp url-parameters data-formats

2016-12-14T11:39:16.837

0 投票

1 回答

7487 浏览

java - 是否可以在不依赖 Hadoop 和 HDFS 的情况下使用 Java 读写 Parquet？

我一直在寻找这个问题的解决方案。

在我看来，如果不引入对 HDFS 和 Hadoop 的依赖，就无法在 Java 程序中嵌入读写 Parquet 格式。这个对吗？

我想在 Hadoop 集群之外的客户端机器上读写。

我开始对 Apache Drill 感到兴奋，但它似乎必须作为一个单独的进程运行。我需要的是使用 Parquet 格式读写文件的进程内能力。

java hadoop parquet apache-drill data-formats

2017-02-06T22:53:53.023

0 投票

1 回答

2147 浏览

python - Keras 为多层感知器正确输入形状

我正在尝试在 keras 中制作一个基本的 MLP 示例。我的输入数据具有形状train_data.shape = (2000,75,75)，我的测试数据具有形状test_data.shape = (500,75,75)。2000和500是训练和测试数据的样本数（换句话说，数据的形状是(75,75)，但是有 2000 和 500 条训练和测试数据）。输出应该有两个类。

我不确定为input_shape网络第一层的参数使用什么值。使用 keras 存储库中 mnist 示例中的代码，我有（更新）：

其中5625是 75 * 75（模拟 MNIST 示例）。我得到的错误是：

有任何想法吗？

python neural-network keras perceptron data-formats

2017-02-14T19:24:35.843

0 投票

1 回答

2269 浏览

localization - NMEA中GGA和RMC语句的区别

我需要 Long/Lat 同时还需要车辆向北的角度。我发现我可以使用 GGA 消息毫无问题地提取 Lon/Lat。但是它并没有给我我需要的角度。

然后我找到了 RMC 消息，这似乎就是我要找的。问题是我不确定两条消息中的 Lon/Lat 是否相同？如果“以度为单位的跟踪角度（真）”是与北方的角度吗？

提前感谢您分享您的经验或想法。

供您观察：

RMC 消息：

https://www.trimble.com/OEM_ReceiverHelp/V4.44/en/NMEA-0183messages_RMC.html

在此处输入图像描述

localization gps latitude-longitude nmea data-formats

2017-02-24T21:43:45.957

0 投票

1 回答

2908 浏览

sas - 使用 SAS 格式目录

我在 SAS 中收到了一个数据集和一个格式目录，我试图打开它，但不知何故我没有正确应用格式目录。这是我使用的代码。我研究了 SAS 网站，我认为我有正确的步骤来调用目录，但它不起作用。我确定这是我犯的一个基本错误。

对于每个变量，我在日志中收到以下错误：

sas data-formats

2017-03-16T13:42:41.147

0 投票

2 回答

112 浏览

sql - 当我在 SQL INSERT INTO 中提供非日期字符串时，EXCEL TABLE 强制字段为日期

我在一个工作簿（工作簿 A）中使用 Excel (2013) 表，并且我正在使用 SQL INSERT INTO 将工作簿 A 中的一整行数据提取到工作簿 B 中的相同 Excel 表中。工作簿 B 通常会在此期间关闭操作，因此使用数据库连接（读取和写入）和 SQL 是最好的途径。我在 Excel 中使用本机 SQL 引擎，而不是外部数据库引擎。

工作簿 A 中的 Excel 表有 73 个字段，其中包含文本、数字和日期 (DMYHMS) 的混合，尽管该表主要是为通用格式设置的。工作簿 B 是连接到它的工作簿 A 集合的中央数据库。目前，我只测试从工作簿 A 到工作簿 B 的一个连接。

在工作簿 A 中，当我执行 SQL 时INSERT INTO出现错误：

“标准表达式中的数据类型不匹配。” （错误=-2147217913）

经过仔细的消除过程，我现在可以得出结论，工作簿 A 中有一个字段（第 71 个字段）导致了问题，这是“LASTMOD_BY”，它是一个用户 ID，即“12345678”，但是对于一些未知的原因，工作簿 B 预计是一个日期。这特别奇怪，因为我有一个 SUB_BY 字段（提交者），它也是一个用户 ID '12345678'，它被接受为文本字符串。为什么 Excel 表会认为 LASTMOD_BY 的相同数据应该是日期？！

阅读这里的许多帖子，大多数用户似乎都希望字符串成为日期：我希望字符串保持为字符串！

在我的一生中，我已经研究并尝试了一切来解决这个问题，但我没有想法！

为了记录，我尝试了以下方法，但没有成功：

确保 Workbook A 和 Workbook B LASTMOD_BY 字段设置为 General
确保工作簿 A 和工作簿 B LASTMOD_BY 字段设置为文本
使工作簿中 LASTMOD_BY 字段中的数据成为数字，然后是文本字段（作为数字，LASTMOD_BY 会引发“溢出”错误，因为用户 ID 太大而不能成为日期值）
将另一个被接受为文本字段的表字段复制到 LASTMOD_BY 列中，并将其重命名为 LASTMOD_BY，并删除旧的 LASTMOD_BY 列。
在工作簿 A 和工作簿 B 中，在 LASTMOD_BY 之前的列中插入另一个名为 LASTMODBY 的字段，并提供 LASTMODBY 用户 ID 并从 SQL 语句中省略 LASTMOD_BY（Excel 仍然希望 LASTMODBY 是一个日期！）
测试表格单元格中的所有值以确保检测到正确的数据类型，然后确保它正确反映在 SQL 语法中（即，如果日期则格式为“日期”；如果文本格式为“文本”；如果数字格式（无单引号））
从 INSERT INTO 语句中遗漏了 LASTMOD_BY（确实有效），然后添加了一个单独的 UPDATE 语句来设置 LASTMOD_BY 字段（这不起作用）。

如何让工作簿 B 中的 Excel 表接受用户 ID ('LASTMOD_BY') 作为文本而不是日期？

这让我发疯了，我开始得出结论，Excel 表在与嵌入式 SQL 引擎一起使用时存在错误。

对于那些需要查看 SQL 的人，这里是：

仅供参考，SQL 是使用 VBA 构建的。您在上面看到的是我手动编辑的版本（删除任何真实数据）。如果您发现缺少/多余的逗号等，它可能来自我的手动编辑，而不是生成的 SQL！

如果有人能为我解决这个问题，我真的很感激！

干杯

sql excel data-formats vba

2017-03-28T05:31:46.640

0 投票

0 回答

50 浏览

json - 这个数据格式是什么？

我正在处理来自外部源的 json 数据，出于某种原因，他们在字符串字段中编码了额外的数据，而不是将其放在单独的字段中。这是遵循某种标准吗？我从未见过它，我需要以某种方式解析它。json 看起来像这样：

json data-formats

2017-03-30T23:20:00.207

0 投票

2 回答

3404 浏览

razor - 将 int 转换为货币格式

伙计们。我想问一下是否有任何方法可以对货币格式进行 int 输入？我试过使用

但是，它会显示一个空的

@Html.EditorFor

如果我用

它只会显示 0.00

我想要的是当我输入 10000 时，它会自动格式化为

RP。10.000

在 @Html.EditorFor 字段内。

有什么建议么？

razor asp.net-mvc-5 int currency data-formats

2017-05-08T02:24:54.843

0 投票

2 回答

730 浏览

python - 使用python（numpy memmap，pytables或其他？）对巨大矩阵进行快速下采样

作为数据处理的一部分，我生成了大约 100000*100000 个单元格的巨大非稀疏矩阵，我想将其下采样 10 倍以减少数据量。在这种情况下，我想对 10*10 像素的块进行平均，以将矩阵的大小从 100000*100000 减小到 10000*10000。

使用python最快的方法是什么？是否需要将原始数据保存为新的数据格式对我来说并不重要，因为我必须多次对同一数据集进行下采样。

目前我正在使用 numpy.memmap：

但是对于大文件，这种方法变得非常慢。这可能与这些文件的二进制数据有关，这些文件按行排序。因此，我认为将我的数据存储在块而不是行中的数据格式会更快，但我不确定性能提升会是什么以及是否有支持这一点的 python 包。

在创建如此庞大的矩阵（此处未显示）之前，我还考虑过对数据进行下采样，但是我的输入数据是断裂且不规则的，因此会变得非常复杂。

python numpy downsampling data-formats bigdata

2017-05-18T08:40:48.773

问题标签 [data-formats]

Reference