问题标签 [large-files]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
wcf - 如何将大文件从 MS Word 加载项 (VBA) 传输到 Web 服务器?
概述
我有一个用 VBA(Visual Basic for Applications)编写的 Microsoft Word 加载项,它将文档及其所有相关内容(嵌入式媒体)压缩到一个 zip 存档中。创建 zip 存档后,它将文件转换为字节数组并将其发布到 ASMX Web 服务。这主要是有效的。
问题
我遇到的主要问题是将大文件传输到网站。我可以成功上传大约 40MB 的文件,但不能上传 140MB 的文件(超时/一般故障)。
第二个问题是,如果 zip 存档太大,在 VBScript Word 加载项中构建字节数组可能会因客户端计算机上的内存不足而失败。
潜在的解决方案
我正在考虑以下选项,并正在寻找有关任一选项或任何其他建议的反馈。
选项一
在客户端(MS Word VBA)上打开一个文件流并一次读取一个“块”并传输到 ASMX Web 服务,该服务将“块”组装成服务器上的文件。
这样做的好处是不会向应用程序添加任何额外的依赖项或组件,我只会修改现有功能。(更少的依赖更好,因为这个解决方案应该在各种服务器环境中工作并且相对容易设置。)
问题:
- 是否有这样做的示例或任何推荐的技术(在 VBA 的客户端或 C#/VB.NET 的 Web 服务中)?
选项二
我了解 WCF 可能会为通过“分块”或流数据传输大文件的问题提供解决方案。但是,我对 WCF 不是很熟悉,并且不确定它到底能做什么,或者我是否可以与 VBA 的 WCF 服务进行通信。这具有添加另一个依赖项(.NET 3.0)的缺点。但是,如果使用 WCF 绝对是一个更好的解决方案,我可能不介意接受这种依赖。
问题:
- WCF 是否可靠地支持这种性质的大文件传输?如果是这样,这涉及什么?任何资源或例子?
- 您可以从 VBA 调用 WCF 服务吗?有什么例子吗?
c# - 在 C# 中计算大文件的 MD5SUM
我正在使用以下代码来计算文件的 MD5SUM -
这正常工作,但如果我遇到一个大文件 (~1GB) - 例如 iso 映像或 DVD VOB 文件 - 我会收到内存不足异常。
不过,我可以在大约 10 秒内计算 cygwin 中相同文件的 MD5SUM。
请建议我怎样才能让它适用于我的程序中的大文件。
谢谢
video - 云 巨大的数据存储选项?
有没有人对如何进行视频录制有好的建议?
我们有一个摄像头,可以录制然后将实时视频流式传输到服务器。所以这意味着我们可以有 1000 台摄像机 24X7 发送数据进行记录。我们将根据包裹存储数据超过 7 / 14 / 30 天。
- 如果摄像机每天向服务器发送数据,那么它将存储 1.5GB。
- 所以这意味着有 1.5GB / 天 / 摄像机的流量
- 每月总计 45GB / 月 / 摄像头(数据 + 一个摄像头的带宽)
请让我知道存储这些数据的最具成本效益的方法?
谢谢!
text-files - 如何在 Windows 上读取大文本文件?
我有一个很大的服务器日志文件(~750 MB),我无法用记事本或记事本++打开(他们都说文件太大)。
任何人都可以建议一个程序(适用于 Windows)一次只能将文件的一小部分读入内存吗?
还是我需要编写自己的应用程序来解析这个文件?
algorithm - sed优化(基于较小数据集的大文件修改)
我确实必须处理非常大的纯文本文件(超过 10 GB,是的,我知道这取决于我们应该称之为大的),而且行很长。
我最近的任务涉及基于另一个文件中的数据进行一些行编辑。
数据文件(应该修改)包含 1500000 行,每行例如 800 个字符长。每一行都是唯一的,并且只包含一个身份号码,每个身份号码都是唯一的)
修改文件是例如1800 行长,包含一个身份号码,以及一个应该在数据文件中修改的数量和日期。
我刚刚将修饰符文件(使用 Vim 正则表达式)转换为 sed,但效率非常低。
假设我在数据文件中有这样一行:
我需要修改 300 字符部分中的数据。
基于修饰符文件,我想出了这样的 sed 行:
所以我有1800行这样的。
但我知道,即使在非常快的服务器上,如果我执行
它非常慢,因为它必须读取每个模式 x 每一行。
没有更好的方法吗?
注意:我不是程序员,从未(在学校)学习过算法。我可以在服务器上使用 awk、sed、perl 的过时版本。
git - 在 git 中拒绝大文件
我们最近开始使用 git,当有人提交了一个大文件(~1.5GB 文件)时遇到了一个令人讨厌的问题,这导致 git 在各种 32 位操作系统上崩溃。这似乎是一个已知的错误(git mmaps 文件到内存中,如果它无法获得足够的连续空间,这将不起作用),不会很快得到修复。
简单的(对我们来说)解决方案是让 git 拒绝任何大于 100MB 左右的提交,但我想不出办法。
编辑:问题来自意外提交的大文件,在这种情况下是程序输出的大量转储。目的是避免意外提交,因为如果开发人员确实不小心提交了一个大文件,然后试图将其从存储库中取回是一个下午,没有人可以做任何工作,并且必须修复他们所有的本地分支有。
mysql - 导入维基百科数据库转储 - 杀死navicat - 任何人有任何想法?
好的,伙计们,我已经下载了 wikipedia xml 转储及其高达 12 GB 的数据:\ 对于一个表,我想将它导入到我的本地主机上的 mysql 数据库中 - 但是它是一个 12GB 的巨大文件,显然 navicats 正在度过它的甜蜜时光导入它或者它更有可能被绞死:(。
有没有办法包括这个转储或至少部分你知道一点点。
让我更正一下它的 21 GB 数据 - 并不是说它有帮助:\ - 有没有人知道将这样的巨大文件导入 MySQL 数据库。
php - 使用 PHP 进行非常大的上传
我想允许将非常大的文件上传到我们的 PHP 应用程序中(数百兆 - 8 演出)。然而,这有几个问题。
浏览器:
- HTML 上传有糟糕的反馈,我们需要轮询进度(这有点傻)或者根本不显示任何反馈
- Flash 上传器在开始上传之前将整个文件放入内存
服务器:
- PHP 强制我们设置 post_max_size,这可能导致容易被利用的 DOS 攻击。我不想全局设置此设置。
- 服务器还需要一些其他变量存在于 POST 变量中,例如密钥。我们希望能够立即拒绝该请求,而不是在整个文件上传之后。
要求:
- HTTP 是必须的。
- 我对客户端技术很灵活,只要它在浏览器中工作。
- PHP 不是必需的,如果有一些其他技术可以在 linux 环境中很好地工作,那就太酷了。
xml - 使用 XProc 进行 XML 流式传输
我正在使用xproc、XML 管道语言和http://xmlcalabash.com/。我想找到一个流式传输大型 xml 文档的示例。例如,给定以下巨大的xml 文档:
我应该如何继续循环(流式传输)x-> N 文档,例如
并用 xslt 处理每个文档?xproc 可以吗?
php - 在 PHP 中解析巨大的 XML 文件
我正在尝试将 DMOZ 内容/结构 XML 文件解析到 MySQL 中,但是所有现有的执行此操作的脚本都非常旧并且不能正常工作。如何在 PHP 中打开一个大的(+1GB)XML 文件进行解析?