问题标签 [large-files]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
868 浏览

python - Python 在迭代处理我的 1GB csv 文件时停止

我有两个文件:

  1. metadata.csv:包含一个 ID,后跟供应商名称、文件名等
  2. hashes.csv:包含一个 ID,后跟一个哈希 ID 本质上是一种外键,将文件元数据与其哈希相关联。

我编写了这个脚本来快速提取与特定供应商相关的所有哈希值。它在完成处理 hashes.csv 之前就崩溃了

该脚本在停止之前通过 hashes.csv 获取大约 2000 个条目。我究竟做错了什么?我以为我正在逐行处理它。

附言。csv 文件是流行的 HashKeeper 格式,我正在解析的文件是 NSRL 哈希集。http://www.nsrl.nist.gov/Downloads.htm#converter

更新:下面的工作解决方案。感谢所有评论的人!

0 投票
2 回答
747 浏览

editing - 编辑大型数据文件

我即将开始一个项目,我可以预见到有需要编辑的大文件(主要是平面文本文件,但可能是 CSV、固定宽度、XML 等)。我需要开发这些部件以在应用程序中进行此编辑。

在尝试确定一种处理编辑大量数据(可能进入 GB 范围)而无需加载整个数据的好方法时,我发现 Audacity 能够很好地处理大文件。Audacity 是开源的,所以我认为在这种情况下它对我来说是一个很好的教学工具。但是,我开始在循环中思考自己的代码,现在我完全糊涂了。

我希望这个问题有两个结果:

  1. 无需加载整个文件即可处理此编辑的好方法。我考虑在他们编辑数据时加载数据,按需缓存。

  2. 解释 Audacity 是如何做到的。

我正在使用 C# 和 .NET,但答案不需要与该环境耦合。

0 投票
2 回答
1076 浏览

java - 使用 ftp 执行远程 java 程序,远程机器上的数据集非常大 - 程序到数据与数据到程序

我正在开发一个基于 java 的应用程序;其相关要求如下

  • 大型数据集存在于网络上的多台机器上。我的程序需要(远程)执行一个 java 程序来处理这些数据集并获取结果

  • Windows 桌面上的用户需要在机器 A 上处理数据集(几个 gig)。我的程序可以驻留在用户的机器上。他将从他的机器上执行我的程序并在远程机器上启动数据集处理

  • 他不会通过网络从远程机器获取数据集到他的机器,而是在远程机器上执行程序并获取结果

  • 用户可能对其他机器具有开放访问权限,但需要 ftp

  • 数据不应该通过网络传送到用户的机器上。

  • 用户有windows操作系统

我的问题

  • 如何执行这种远程进程执行?有任何想法吗?

  • 我在看hadoop;我正在使用 Windows XP。我无法让 hadoop 为单节点集群工作;我找不到好的文档。因此,我还没有完全测试过 hadoop。如果我走在正确的轨道上,有什么意见吗?

  • 你们中的任何人发现任何对安装 hadoop 和故障排除有用的链接?

提前感谢您的任何回复。请让我知道我是否应该提供更多/具体的细节。

-jv

0 投票
1 回答
422 浏览

web - 在网页上无缝使用大背景图片

我想在我的网站上拥有巨大的背景图片,但又不会让用户很难下载它们,并且网站在背景加载时看起来很丑。

它们的大小不会超过 1920 X 1080,但是很难说以千字节/兆字节为单位。

我在这里有哪些选择,哪些是最有效的?

我不太在意带宽,只是想让用户认为一切看起来都不错;)

0 投票
2 回答
520 浏览

c - 快速的“C”库透明地管理非常大的文件

我需要保存大量数据 (>500GB),这些数据正在从连接到我的 PC 的另一台设备流式传输 (800Mb/s)。速度排除了使用数据库,例如 MySQl/ISAM,我正在寻找一个快速、轻量级的库,它位于“C”stdio 文件库(即 fopen/fclose/fwrite)之上,它允许我写/读一个非常大的文件(最多可用磁盘空间)。

在幕后,大文件可以分解成较小的文件,例如 1GB,我希望 API 处理这些细节。

数据以压缩的二进制格式到达 PC,在将其写入硬盘之前无需进一步处理。

该库应该适用于 Windows 和 Linux。

0 投票
1 回答
931 浏览

wxwidgets - 为什么 wxTextCtrl 显示文本这么慢?

我有一个 wxTextCtrl,我需要在其中放入一个非常大的字符串。(就像一个 15 MB 的字符串)唯一的问题是它很慢。这是我正在做的事情:

然而,这不是瓶颈。只要此代码块所在的函数返回,就会发生这种情况。整个应用程序冻结约 30 秒。我在 ChangeValue 之后尝试了 wxYield,这导致字符串的前几行显示在控件中,但之后它仍然冻结。我怎样才能避免这种情况?

我必须强调 ChangeValue 几乎是瞬间返回的。延迟发生在此之后,可能在 wxTextCtrl 的内部消息处理程序或其他东西中。

0 投票
3 回答
708 浏览

java - 如何逐步阅读大文件?

我在用 java 读取文件时遇到了一些问题。它绝对是巨大的(2,5G),调整我的记忆也无济于事。数据都在一行上,所以我不能一次读取一行。我想做的是读取文件,直到找到某个字符串,例如“<|start|>”或“<|end|>”,然后在这些字符串之间打印数据,这样内存就被清除了,我可以继续阅读文件的其余部分。所以我基本上在寻找一种阅读器,它从某个起始字符串开始阅读,并在一个停止字符串处停止阅读。谁能帮我?

0 投票
8 回答
2737 浏览

c - 我应该如何在内存中存储大量的文本数据?

我正在研究交流解析器,想知道专家如何管理大量文本/字符串(> 100mb)以存储在内存中?预计内容将始终快速访问。bg:redhat/gcc/libc

单个字符数组将超出边界导致分段错误...欢迎任何想法或经验分享/讨论...

0 投票
12 回答
219761 浏览

c# - 在 C# 中使用流读取大型文本文件

我有一个可爱的任务,就是弄清楚如何处理加载到我们应用程序的脚本编辑器中的大文件(这就像我们内部产品的快速宏的VBA)。大多数文件大约为 300-400 KB,可以很好地加载。但是当它们超过 100 MB 时,这个过程就很难了(正如你所期望的那样)。

发生的情况是文件被读取并推送到 RichTextBox 中,然后导航 - 不要太担心这部分。

编写初始代码的开发人员只是使用 StreamReader 并做

这可能需要很长时间才能完成。

我的任务是分解这段代码,将其分块读入缓冲区并显示一个进度条,并带有取消它的选项。

一些假设:

  • 大多数文件为 30-40 MB
  • 该文件的内容是文本(不是二进制),有些是 Unix 格式,有些是 DOS。
  • 一旦检索到内容,我们就会计算出使用了什么终结符。
  • 加载后,没有人会担心在富文本框中呈现所需的时间。这只是文本的初始加载。

现在的问题:

  • 我可以简单地使用 StreamReader,然后检查 Length 属性(因此 ProgressMax)并发出读取设置的缓冲区大小并在后台工作人员内部的 while 循环中迭代这样它就不会阻塞主 UI 线程?然后在完成后将 stringbuilder 返回到主线程。
  • 内容将转到 StringBuilder。如果长度可用,我可以用流的大小初始化 StringBuilder 吗?

这些(在您的专业意见中)是好主意吗?过去我在从 Streams 读取内容时遇到了一些问题,因为它总是会丢失最后几个字节或其他内容,但如果是这种情况,我会问另一个问题。

0 投票
6 回答
15391 浏览

matlab - 读取包含逗号作为一个字段的字符串的大型 csv 文件

我有一个的.csv 文件(~26000 行)。我希望能够将它读入matlab。另一个问题是它在其中一个字段中包含由逗号分隔的字符串集合。

我无法阅读它。我尝试了 tdfread 之类的东西,但在这里不起作用。我应该注意的 textscan 的任何技巧?

还有其他方法吗?