问题标签 [large-files]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - 整个文件中的多行正则表达式搜索
我找到了大量使用正则表达式替换文件中文本的示例。然而,这一切都归结为两个版本:
1. 遍历文件中的所有行并将正则表达式应用于每一行
2. 加载整个文件。
No. 2 使用“我的”文件是不可行的——它们大约是 2GiB...
至于 No. 1:目前这是我的方法,但是我想知道...如果需要应用跨越多个的正则表达式怎么办线 ?
c# - 如何使用 WCF 将大文件从客户端发送到服务器?
如何在 C# 中使用 WCF 将大文件从客户端发送到服务器?下面是配置代码。
c++ - 像 iostream 这样的大型包含文件是否有效?(C++)
iostream,当它包含的所有文件、那些包含的文件等等,加起来大约有 3000 行。
考虑 hello world 程序,它只需要在屏幕上打印一些东西就可以了:
这应该是一段非常简单的代码,但 iostream 将 3000+ 行添加到边缘代码中。那么,是否真的需要这 3000 多行代码才能简单地在屏幕上显示一行,如果不需要,它们创建的程序是否比我简单地将相关行复制到代码中效率低?
vim - 在 VIM 中处理大文件
我尝试在 VIM 中打开一个巨大的(~2GB)文件,但它卡住了。我实际上不需要编辑文件,只需有效地跳转即可。
如何在 VIM 中处理非常大的文件?
c# - 大文件处理 - 读取算法中断 - C#
所以我有一个算法,可以从(非常大,~155+ MB)二进制文件中读取,根据规范解析它并写出必要的信息(到 CSV,平面文本)。对于前 1550 万行的输出,它可以完美运行,生成约 0.99-1.03 GB 的 CSV 文件。这通过几乎不超过 20% 的二进制文件。在此之后它会中断,因为突然打印的数据根本不是二进制文件中显示的内容。我检查了二进制文件,同样的模式还在继续(数据分成“数据包”——见下面的代码)。由于它的处理方式,内存使用量从未真正增加(稳定〜15K)。功能代码如下。是我的算法吗(如果是这样,为什么它会在 1550 万行之后中断?!)......由于文件大小很大,我没有考虑其他影响吗?有任何想法吗?
(仅供参考:每个“数据包”的长度为 77 字节,以 3 字节的“起始码”开始,以 5 字节的“结束码”结束 - 您将看到下面的模式)
编辑代码已根据以下建议更新...谢谢!
php - 使用 Zlib 库压缩大型包含文件的体验?
我对其他开发人员使用 Zlib 和压缩大文件的经验很感兴趣,以及它将如何取决于应用程序进程,是否会使应用程序变慢,或者不会降低任何其他应用程序的性能。如果有任何其他更好的解决方案拍摄。
php - 将大型 XML 文件加载到 mySQL 数据库 (PHP)
对于一个新项目,我需要将大型 XML 文件 (200MB+) 加载到 mySQL 数据库。我需要匹配 +- 20 个提要(并非所有字段都相同)。
现在,当我想捕获 XML 时,我得到了这个错误:
有一个简单的解决方案吗?不可能以每几 MB 的一部分获得 te 提要。
非常感谢你!
Ps 有人想轻松匹配 xml-feeds 吗?
xml - 在 Eclipse 中查看大型 XML 文件?
我正在处理一个涉及一些大型 XML 文件(从 50MB 到超过 1GB)的项目,如果我可以在 eclipse 中查看它们(简单的文本视图很好)而不用 Java 耗尽堆空间,那就太好了。我尝试在 eclipse.ini 中调整 jvm 可用的内存量,但没有取得多大成功。有任何想法吗?
xml - 从格式不佳的大型 XML 文件的特定元素中提取文本
我有一个大 (~50Mb) 文件,其中包含格式不佳的 XML 描述文档和<item> </item>
标签之间的属性,我想从所有英文文档中提取文本。
Python 的标准 XML 解析实用程序(dom、sax、expat)因格式错误而窒息,而更宽容的库(sgmllib、BeautifulSoup)解析整个文件并花费太长时间。
有谁知道<document> </document>
只有在lang=en
不解析整个文档的情况下才提取文本的方法?
附加信息:为什么它“格式不正确”
一些文档具有<dc:link></dc:link>
导致解析器出现问题的属性。Python 的 xml.minidom 抱怨:
c++ - C++ 64 位 std::ostream 支持
我即将从使用标准 FILE 指针从一些旧代码过渡到使用 C++ 流,但我需要 LARGEFILE 寻求支持(激活此支持的编译器标志是:-D_FILE_OFFSET_BITS=64等)我能够通过使用off64_t数据类型获取。
关于这个主题和 C API,我最初的问题得到了解答,现在我希望能够过渡到使用 C++ 流。
相同的标志是否会触发 C++ 中文件流的搜索能力?