问题标签 [large-files]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
6 回答
4364 浏览

c# - 整个文件中的多行正则表达式搜索

我找到了大量使用正则表达式替换文件中文本的示例。然而,这一切都归结为两个版本:
1. 遍历文件中的所有行并将正则表达式应用于每一行
2. 加载整个文件。

No. 2 使用“我的”文件是不可行的——它们大约是 2GiB...
至于 No. 1:目前这是我的方法,但是我想知道...如果需要应用跨越多个的正则表达式怎么办线 ?

0 投票
3 回答
14996 浏览

c# - 如何使用 WCF 将大文件从客户端发送到服务器?

如何在 C# 中使用 WCF 将大文件从客户端发送到服务器?下面是配置代码。

0 投票
4 回答
1643 浏览

c++ - 像 iostream 这样的大型包含文件是否有效?(C++)

iostream,当它包含的所有文件、那些包含的文件等等,加起来大约有 3000 行。

考虑 hello world 程序,它只需要在屏幕上打印一些东西就可以了:

这应该是一段非常简单的代码,但 iostream 将 3000+ 行添加到边缘代码中。那么,是否真的需要这 3000 多行代码才能简单地在屏幕上显示一行,如果不需要,它们创建的程序是否比我简单地将相关行复制到代码中效率低?

0 投票
10 回答
132476 浏览

vim - 在 VIM 中处理大文件

我尝试在 VIM 中打开一个巨大的(~2GB)文件,但它卡住了。我实际上不需要编辑文件,只需有效地跳转即可。

如何在 VIM 中处理非常大的文件?

0 投票
2 回答
4050 浏览

c# - 大文件处理 - 读取算法中断 - C#

所以我有一个算法,可以从(非常大,~155+ MB)二进制文件中读取,根据规范解析它并写出必要的信息(到 CSV,平面文本)。对于前 1550 万行的输出,它可以完美运行,生成约 0.99-1.03 GB 的 CSV 文件。这通过几乎不超过 20% 的二进制文件。在此之后它会中断,因为突然打印的数据根本不是二进制文件中显示的内容。我检查了二进制文件,同样的模式还在继续(数据分成“数据包”——见下面的代码)。由于它的处理方式,内存使用量从未真正增加(稳定〜15K)。功能代码如下。是我的算法吗(如果是这样,为什么它会在 1550 万行之后中断?!)......由于文件大小很大,我没有考虑其他影响吗?有任何想法吗?

(仅供参考:每个“数据包”的长度为 77 字节,以 3 字节的“起始码”开始,以 5 字节的“结束码”结束 - 您将看到下面的模式)

编辑代码已根据以下建议更新...谢谢!

0 投票
1 回答
485 浏览

php - 使用 Zlib 库压缩大型包含文件的体验?

我对其他开发人员使用 Zlib 和压缩大文件的经验很感兴趣,以及它将如何取决于应用程序进程,是否会使应用程序变慢,或者不会降低任何其他应用程序的性能。如果有任何其他更好的解决方案拍摄。

0 投票
5 回答
2252 浏览

php - 将大型 XML 文件加载到 mySQL 数据库 (PHP)

对于一个新项目,我需要将大型 XML 文件 (200MB+) 加载到 mySQL 数据库。我需要匹配 +- 20 个提要(并非所有字段都相同)。

现在,当我想捕获 XML 时,我得到了这个错误:

有一个简单的解决方案吗?不可能以每几 MB 的一部分获得 te 提要。

非常感谢你!

Ps 有人想轻松匹配 xml-feeds 吗?

0 投票
3 回答
6069 浏览

xml - 在 Eclipse 中查看大型 XML 文件?

我正在处理一个涉及一些大型 XML 文件(从 50MB 到超过 1GB)的项目,如果我可以在 eclipse 中查看它们(简单的文本视图很好)而不用 Java 耗尽堆空间,那就太好了。我尝试在 eclipse.ini 中调整 jvm 可用的内存量,但没有取得多大成功。有任何想法吗?

0 投票
4 回答
1296 浏览

xml - 从格式不佳的大型 XML 文件的特定元素中提取文本

我有一个大 (~50Mb) 文件,其中包含格式不佳的 XML 描述文档和<item> </item>标签之间的属性,我想从所有英文文档中提取文本

Python 的标准 XML 解析实用程序(dom、sax、expat)因格式错误而窒息,而更宽容的库(sgmllib、BeautifulSoup)解析整个文件并花费太长时间。

有谁知道<document> </document> 只有lang=en不解析整个文档的情况下才提取文本的方法?

附加信息:为什么它“格式不正确”

一些文档具有<dc:link></dc:link>导致解析器出现问题的属性。Python 的 xml.minidom 抱怨:

0 投票
1 回答
1324 浏览

c++ - C++ 64 位 std::ostream 支持

我即将从使用标准 FILE 指针从一些旧代码过渡到使用 C++ 流,但我需要 LARGEFILE 寻求支持(激活此支持的编译器标志是:-D_FILE_OFFSET_BITS=64等)我能够通过使用off64_t数据类型获取。

关于这个主题和 C API,我最初的问题得到了解答,现在我希望能够过渡到使用 C++ 流。

相同的标志是否会触发 C++ 中文件流的搜索能力?