问题标签 [hdf]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Hadoop/HDFS 比较 100 万个生物特征(小)文件
我是hadoop的初学者,阅读hadoop中的小文件问题,现在我有一个问题要解决,帮助我开始
问题 :
源结果:大约 100 万+(大约)个文件,每个文件大小接近 1 kb(无法阻止创建或调整大小)
结果分组: 源结果被分组为 1000 个文件 A 组。
所需任务:
组中的文件将以一对一的方式进行比较文件是遵循特定标准结构(标题、内容...等)的二进制细节(生物特征)文件
由于预计源结果会随着时间增加,我想在 hadoop 上实现比较
Hadoop的输入:
< 输入文件 > < HARFile > < 输出 >
< 输入文件示例 >:
请注意,文件名是唯一的 id,单独发出文件名会有很大帮助
过程算法:(它没有实现,只是一个想法)
- 逐行读取输入文件
- 借助 har:// 读取行中的每个文件(例如:读取 har://xxx/08RTC345744.txt 和 har://xxx/08RTC345746.txt )
- 使用相关的生物特征算法比较从 hdfs (HAR) 读取的文件
- 如果它们显示相似性 Emit < Filenames > < Count >
< HARFile 示例文件 >
1)在 Hadoop 中实现是一个更好的主意吗?
2)我读到比较小文件是hadoop中的一个问题,为一组组形成一个HAR文件然后比较更好吗?
3)我的 过程算法:工作与否?
4) 有效吗?我想,当然不是,还有其他想法吗?
5)关于生物特征匹配的 MapReduce 有什么想法吗?
6)HBASE 是一个解决方案吗?
python - HDFStore.select 比 DataFrame 切片慢一个数量级?
给定一个带有整数索引和浮点列的简单 DataFrame,这段代码:
至少比此代码慢 10 倍:
表格或固定格式并没有太大的区别,select() 调用,即使相当于切片,也慢得多。
感谢您的任何见解!
python - 如何使用 h5py 读取只有数据集(无组)的 HDF5 文件?
我有想要使用 Python 模块 h5py(在 Python 2.7 中)打开的 HDF5 文件。
当我有一个包含组和数据集的文件时,这很容易:
但是,在我目前的情况下,我没有组。只有数据集。不幸的是,无论我尝试什么,我都无法访问我的数据。以下都不起作用(全部与 KeyErrors 或 ValueErrors 中断):
如果没有解决方案,我可以重新制作我的文件以拥有一个组。看起来确实应该有一个解决方案,虽然......
似乎 h5py 没有看到任何键:
python - 无法使用 Panda 将数据存储在 HDF5 中?
我正在尝试以 HDF5 格式存储大型数据帧,但我总是遇到错误。我不应该使用好的方法来做到这一点,但我看不出我错在哪里。
这是我的代码:
它构建了一个简单的数据框:
现在当我尝试:
或者:
我得到:
我也尝试这种方法:
但我得到:
这样做的正确方法是什么?谢谢你。
我正在使用:Python 3.4.1 pandas 0.15.2 表 3.0.0
python - 为什么用 Pandas 编写时 CSV 文件比 HDF5 文件小?
如果我使用更大的数据集,那么效果会更大。使用HDFStore
下面的类似不会改变任何事情。
编辑:没关系。例子很糟糕!使用一些非平凡的数字而不是零会改变故事。
将数字表示为浮点数应该比将它们表示为每个数字一个字符的字符串需要更少的字节。这通常是正确的,除了在我的第一个示例中,所有数字都是“0.0”。因此,表示数字不需要太多字符,因此字符串表示小于浮点表示。
python - 使用索引中包含特殊字符的熊猫读取 HDF 文件
如何将索引中带有空格字符的数据(例如:äüö)存储到 HDF 文件中。
创建一个数据框:
从 hdf 文件中读取数据:
缺失索引:
python - 替代 npz 文件?
我使用以 Python .npz 格式存储的数组。我有很多这样的文件,它们都共享相同的公共结构:文件名my_file_var1_var2_var3.npz
包含以下项目(所有数组都是 32 位浮点数):
- 一个二维数组(N=11,Ns=2000)
- 一个二维数组 (12, N )
- 一个二维数组 ( 300, N )
- 一个二维数组( 300, Ns )
- 一个浮子
- 一个整数
拥有超过 1000 个文件是很烦人的,而且每个文件最终都会占用大约 4Mb。我在想最好将它们转移到一个容器中,比如 HDF5/Pytables 或类似的。不同的数组只是数组,没有优先排序或任何东西(它们实际上是矩阵或将被操作的向量堆栈)。每个文件名的所有数组都需要同时在一起。
是否有任何关于哪种格式可以更好地检索与 和 关联的数组的建议var1
,var2
以及var3
存储的便携和高效
c# - 在 C# 中使用 HDF5DotNet,如何从 .mat 文件中检索和访问元胞数组
在 C# 中使用 HDF5DotNet,我想读取 900x1 单元格数组,然后访问每个单元格内的 2D 双精度数组。我找到了如何将 H5Array 映射到 C# 中的数组(见下文),但如果数组由“单元格”组成,我无法弄清楚如何映射 H5Array。HDF5DotNet H5D.getType(...) 函数只返回一个整数 ID,我似乎无法与任何感兴趣的东西相关联。我假设 HDF5DotNet 中有一个类将与单元格对应。
python - pandas 将 csv 转换为 h5 文件,避免内存错误
我有这个简单的代码
但是我的数据太大了,我遇到了内存问题。
什么是逐块执行此块的干净方法?