问题标签 [filehash]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
1170 浏览

r - R中ff和filehash包的区别

我有一个由 25 col 和 ~1M 行组成的数据框,分成 12 个文件,现在我需要导入它们,然后使用一些reshape包来进行一些数据管理。每个文件都太大了,我不得不寻找一些“非 RAM”的解决方案来进行导入和数据处理,目前我不需要做任何回归,我只会有一些关于数据框的描述性统计。

我搜索了一下,找到了两个包:ffand filehash,我先阅读filehash手册,发现它看起来很简单,只是添加了一些将数据帧导入文件的代码,其余的似乎与通常的R操作相似。

我还没有尝试过ff,因为它有很多不同的课程,我想知道ff在我真正的工作开始之前是否值得花时间来了解自己。但是filehash包似乎有一段时间是静态的,关于这个包的讨论很少,我想知道是否filehash已经变得不那么流行了,甚至已经过时了。

谁能帮我选择使用哪个包?或者谁能​​告诉我它们之间的区别/优缺点是什么?谢谢。

更新01

我目前正在filehash用于导入数据帧,并意识到它导入的数据帧filehash应该被视为只读,因为该数据帧中的所有进一步修改都不会存储回文件,除非您再次保存它,这不是很方便在我看来,因为我需要提醒自己做储蓄。对此有何评论?

0 投票
1 回答
853 浏览

r - 以交互方式处理占用大量内存的列表对象

我最近发现了包的神奇之处bigmemoryff并且filehash可以处理非常大的矩阵。

如何处理非常大 (300MB++) 的列表?在我的工作中,我每天都在处理这些列表。save()我可以在任何地方用& hacks做创可贴解决方案,load()但我更喜欢类似bigmemory的解决方案。像 abigmemory bigmatrix这样的东西是理想的,我使用它基本上与 a 相同,matrix只是它在我的 RAM 中占用了 660 个字节。


这些列表主要是对象(或类似的回归对象)>1000的长度列表。lm()例如,

在我的项目中,我将拥有A,B,C,D,E,F必须以交互方式使用的类型列表(甚至更多)。

如果这些是巨大的矩阵,就会有大量的支持。我想知道在任何大型list对象的包中是否有类似的支持。

0 投票
1 回答
1410 浏览

r - 处理在操作时对 RAM 来说太大的大型列表

如果没有在具有更多 RAM 的机器上工作,我该如何处理 中的大型列表R,例如将它们放在磁盘上,然后处理其中的部分?

这是一些生成我正在使用的列表类型的代码

在我的实际用例中,列表中的每个数据框都是唯一的,与此处的快速示例不同。我的目标是 n = 4000 和 i = 100,000

这是我想用这个数据框列表做的一个例子:

在我的实际用例中,它运行了几个小时,填满了 RAM 和大部分交换,然后 RStudio 冻结并显示一条带有炸弹的消息(由于 R 会话中的错误,RStudio 被迫终止)。

我看到这bigmemory仅限于矩阵并且ff似乎无法处理列表。还有哪些其他选择?如果sqldf此处可能存在相关的内存不足方法,我该如何开始?我无法从文档中获得足够的进展来取得任何进展,并会感谢任何指示。请注意,“购买更多 RAM”的说明将被忽略!这是一个我希望适合普通台式计算机(即本科计算机实验室)的软件包。

更新跟进 SimonO101 和 Ari 的有用评论,这里有一些比较数据帧和 data.tables、循环和 lapply 以及有和没有 gc 的基准测试

这是结果,没有显式垃圾收集,data.table 比循环快得多,并且 lapply 略快。使用显式垃圾收集(我认为 SimonO101 可能会暗示)它们的速度几乎相同 - 慢得多!我知道 usinggc有点争议,在这种情况下可能没有帮助,但我会用我的实际用例试一试,看看它是否有什么不同。当然,我没有任何这些函数的内存使用数据,这确实是我主要关心的问题。似乎没有与计时功能等效的内存基准测试功能(无论如何,对于 Windows)。

0 投票
1 回答
1894 浏览

r - 如何以内存有效的方式将结果保存在列表中?

在我当前的项目中,我有一个计算函数,它在向量 A 的一个元素上运行并返回一个列表元素,我插入到列表 B 中。返回元素包含许多与第一个列表相关的任意大小的大型矩阵。

作为一个例子,让我们以一个函数为例,它接受一个原始数字 n 并生成一个 nx n 的随机矩阵。

这个函数减慢了更大的 list.B 获取速度(事实上我很确定它会在 R 完成循环之前崩溃)。在我看来,list.B 的任何元素在创建后都不会被再次访问,因此它可以写入磁盘而不是以减慢计算速度的方式占用内存。

我可以编写一个脚本,通过将块保存到 .rda 文件中来做到这一点,但我希望有人有一个更优雅的解决方案。

对于这个http://cran.r-project.org/web/packages/ff/ff.pdf,FF包看起来是一个有趣的可能性, 但据我所知,它不支持列表对象。

注意事项:

  • 我正在使用 for 循环,因为我希望能够修复第 7000 次迭代中出现的错误,而不必不必要地重新运行前 6999 次迭代。
  • 根据您的机器编辑代码的参数,直到它可以运行但只能在您的
    计算机上缓慢运行。
  • 我遇到的实际问题是将列表作为输入,因此我对将任意矩阵函数向量化不感兴趣。
  • 内存问题在我的实际问题中更加复杂,因为该函数使用大量内存(它涉及子集数据帧)。

编辑:我正在考虑将 r 对象映射到临时文件的 mmap 包,但我仍在尝试解决如何使用它来解决这个问题。

0 投票
1 回答
756 浏览

r - 在 R 中构建 model.matrix 无法放入内存(尝试了所有内存映射包)

我正在尝试lm()为大型销售数据集估计 R 中的装备。数据本身并没有大到 R 无法处理;大约 250MB 的内存。问题是当lm()被调用以包含所有变量和交叉项时,构造会model.matrix()引发错误,指出机器内存不足并且无法分配大小为任何大小的向量(在本例中约为 47GB)。可以理解,我没有那么多内存。问题是,我已经尝试了ffbigmemoryfilehash包,所有这些都可以在内存之外使用现有文件正常工作(我特别喜欢 的数据库功能filehash)。但我不能,为了我的一生,得到model.matrix被创造出来。我认为问题在于,尽管将输出文件映射到我创建的数据库,R 还是尝试在 RAM 中设置它,但不能。有没有办法使用这些包来避免这种情况,或者我做错了什么?[此外,使用biglm和其他功能来分块地做事甚至不允许我一次一个地分块。再一次,似乎 R 试图先制作整个model.matrix,然后再分块]

任何帮助将不胜感激!

0 投票
1 回答
831 浏览

powershell - Combining MD5 Analysis with Filename in single Output

I am struggling to combine the output from two commands into a single CSV / TXT file.

The first command is to recursively search a folder and create an MD5 number for each document. This is then exported to a CSV file that includes the full path.

dir -recurse | Get-FileHash -Algorithm MD5 | Export-CSV MD5ofFolder.csv

The second command is to retrieve all the filenames within the folder (and sub-folders) WITHOUT including any pathing:

In a perfect world, I would be able to export a single CSV or TXT document that contains the MD5 values, the full path, and the filename (with extension).

I note that my second code string also produces the folder names in the output, which is not desirable. I am able to produce a text output without the folder names, but the code is ugly, and it doesn't do what I want:

I am sure this is a simple problem for someone smarter than me, so any and all help would be appreciated - I am VERY new to PowerShell.

0 投票
2 回答
246 浏览

java - 分块时文件 md5 哈希更改(用于 netty 传输)

底部的问题

我正在使用 netty 将文件传输到另一台服务器。由于 WebSocket 协议,我将文件块限制为 1024*64 字节 (64KB)。以下方法是一个本地示例,文件将发生什么:

该文件由InputStreamByteBuffer 加载并直接写入OutputStream. 在这个过程中文件的内容不能改变。

要获取md5-hashes文件,我编写了以下方法:

所以:理论上它应该返回相同的哈希值,不是吗?问题是它返回两个不同的哈希值,每次运行都没有区别。文件大小保持不变,内容也一样。当我运行该方法一次时in: file-1out: file-2再次使用in: file-2out: file-3file-2 和 file-3 的哈希值是相同的!这意味着该方法每次都会以相同的方式正确更改文件。

这是一个小测试,比较所有缓冲区是否相等。测试呈阳性。所以没有任何区别。

问题:你能帮我在不改变哈希的情况下分块文件吗?

0 投票
1 回答
100 浏览

hash - 如何找出 CKAN 资源记录返回的哈希类型?

示例记录

API 文档说:

例如,SHA1 并没有让我走得太远。如果我不知道使用什么算法来计算它,我就无法检查它。

查看源代码也没有启发我。它似乎是一个自由文本字段,所以我猜上传者可以将其设置为他们想要的任何内容但大概它是为某人使用而设计的,所以它必须被传达。

这是一个空字符串的示例。s

0 投票
1 回答
324 浏览

excel - 如何简单地检查两个 Excel 文件是否相同

我不想知道有什么区别,我只想知道“是/否这些床单是否相同?”

不幸的是,表面上散列文件并不能回答这个问题:(

具体来说 ...

  • 我拿了一个 .XLSX 文件,并对其进行了文件复制。
  • 比较哈希...哈希是相同的。耶!
  • 打开一个文件,单击一个单元格,保存并关闭文件。
  • 比较哈希...哈希是不同的。嘘!
  • 打开两个文件,在每个文件中选择相同的单元格。保存和关闭的文件。
  • 比较哈希...哈希仍然 不同呜呜!
  • 删除了一个文件并重新复制了剩余的文件。
  • 比较哈希...哈希是相同的。耶!
  • 打开一个文件,根本没有碰任何东西!,保存和关闭的文件。
  • 比较哈希...哈希仍然 不同呜呜呜呜!

因此,显然 Excel 并没有以稳定的方式保存文件。(或者已经包括最后保存的日期?)

有没有办法根据工作表的单元格内容获得稳定的哈希?

0 投票
1 回答
29 浏览

powershell - Generating hashcodes for specific filetypes only with Powershell

I'm a complete beginner to Powershell and scripting, and have been successfully been using Out-GridView to display some properties of the files I have in my directories using the following:

dir D:\Folder1\$type -Recurse | Select Fullname,Directory,LastWriteTime | out-gridview

where I specifiy the file extension with $type = "*.pdf" for instance.

I would also like to start comparing files using hashcodes so I have tried this command:

ls | Get-Filehash

However, I would like to have the hashcodes in the output window as a seperate column with out-gridview. Is this possible? I've tried

dir D:\Folder1\$type -Recurse | Select Fullname,Directory,LastWriteTime,Filehash | out-gridview

and

dir D:\Folder1\$type -Recurse | Select Fullname,Directory,LastWriteTime | Get-Filehash | out-gridview

Of course neither of these work.

Does anyone have a way of generating hashcodes for a specific file extension only?

Many thanks in advance!