问题标签 [compressed-files]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 是否有与 GetCompressedFileSize 等效的 Java?
我希望获得 Java 中稀疏文件的准确(即磁盘上的实际大小,而不是包含所有 0 的正常大小)测量值。
在 Windows 上的 C++ 中,人们会使用GetCompressedFileSize
. 我还没有遇到过如何在 Java 中做到这一点?
如果没有直接的等价物,我将如何测量稀疏文件中的数据,而不是包括所有零的大小?
为了澄清起见,我希望在 Linux 操作系统和 Windows 上运行稀疏文件测量,但是我不介意编写两个单独的应用程序!
java - 找出从 S3 for Java 下载的压缩文件的 MIME 类型
客户端应该将压缩文件上传到 S3 文件夹中。然后下载压缩文件并解压缩以对其包含的文件执行各种操作。最初我们告诉我们的客户将其文件压缩成ZIP文件,但这对我们的客户来说太难了。相反,它提交了一个带有 ZIP 扩展名的RAR文件......多么聪明。由于显而易见的原因,无法使用ZIP解压缩算法解压缩RAR文件。
因此,我正在寻找一种方法来找出 S3 下载文件的文件类型,因为我正在使用 Amazon 的 SDK 在 Linux 操作系统上开发 Java 项目。我将根据获得的文件类型来处理如何解压文件。
我看过很多堆栈溢出问题,比如这个,但仅通过查看它们(及其评论),似乎没有一个是 100% 有效的。
找出压缩文件类型的最佳方法是什么?
git - git 如何处理压缩文件?
我有一些svg
文件希望被git
. 但是,大多数软件都可以透明地处理svgz
(基本上是svg.gz
)。因此,我正在考虑切换到svgz
以节省磁盘空间。
svgz
将它们作为而不是svg
从一个角度来看有什么优点和缺点git
?
我幼稚的想法是git
差异算法针对文本文件进行了优化,并且在压缩的对应物上效果不佳。由于差异也被压缩,我假设整体方法对于文本文件非常有效,其中差异占用非常少的磁盘空间。相反,对于压缩数据,它倾向于在内部保存更大的文件,最终我希望存储库最终可能会占用更多空间来存储压缩文件。
regex - 识别 Bash 脚本中文件扩展名的正则表达式模式不准确以捕获压缩文件
我创建了这个有一个参数(文件名)的小 Bash 脚本,该脚本应该根据文件的扩展名做出响应:
它是这样运行的:
如果它是一个 fastq(或 FASTQ,或 fq,或 FQ,或 fastq.gz(压缩)),我希望脚本告诉我“这是一个 fastq”。如果是 sam,我想让它告诉我它是 sam,如果不是,我想告诉我它既不是 sam 也不是 fastq。
问题:当我没有考虑 .gz(压缩)场景时,脚本运行良好并给出了我预期的结果,但是当我尝试添加最后一部分以解决这种情况时发生了一些事情(见第三行,它说的部分 .?[[:alnum:]]+ )。这部分的意思是“在文件名中,在扩展名之后(在这种情况下为 fastq),后面可能有一个点加上一些单词”。
我的输入是这样的:
它有效。但是如果我输入: sh script.sh filename.fastq
它说它不是fastq。我想把最后一部分作为可选的,但如果我添加一个“?” 最后它不起作用。有什么想法吗?谢谢!我的问题是修复该部分以适用于这两种情况。
java - .zip 文件中的文件是否始终被压缩?
在工作中,我正在实现一个与文件一起使用的新 Web 服务。规范说我们不应该接受压缩的 .zip 文件。
是否有未压缩的 .zip 文件之类的东西?如果是,您认为使用 Java (1.8) 检测一个的最佳方法是什么?
c# - 如何在 C# 中验证多部分压缩(即 zip)文件是否包含所有部分?
我想验证像 Zip 这样的多部分压缩文件,因为当压缩文件的任何部分丢失时,它会引发错误,但我想在提取之前对其进行验证,并且不同的软件会创建不同的命名结构。
我还参考了一个DotNetZip相关问题。
下面的截图来自 7z 软件。
第二个屏幕截图来自 C# 的 DotNetZip。
另一件事是,我还想测试它是否也已损坏或不像 7z 软件。请参阅下面的屏幕截图了解我的要求。
请帮我解决这些问题。
julia - julia:如何读取 bz2 压缩文本文件
在 R 中,我可以将整个压缩文本文件读入字符向量
readLines
透明地解压缩 .gz 和 .bz2 文件,但也适用于非压缩文件。朱莉娅有类似的东西吗?我可以
但这无法打开压缩文件。读取 bzip2 文件的首选方法是什么?有没有可以自动推断压缩格式的方法(除了手动检查文件扩展名)?
php - 如何在 php 中创建 .cab 存档
我在我的网站上使用 onclick 按钮创建 10 个文件 xml,我想将所有 10 个文件放在 php 中的存档 .cab 扩展名中。
我尝试使用https://www.phpclasses.org/package/4056-PHP-Create-CAB-archives-from-lists-of-files.html中的 MakeCAB 类,但该类已过时。我尝试更新(我更改 __construct 的名称)它,但仍然出错并且输出 fil .cab 已损坏。我怎样才能做到这一点?请。
我仍然有 2 个错误 Undefined index 和 filettr 但我不知道如何定义它们,我不知道这是否是问题的原因,即 .cab 的生成工作但可能有大小限制重量或其他,因为它总是截断我一个文件。
定义了一些变量和索引,但可能不是全部。
我像下面的代码一样调用类
我对其他技术解决方案持开放态度:
使用在线压缩工具,但需要时间
使用与html css网站等兼容的php以外的语言...
请不要犹豫,给我一些想法,谢谢。
azure-blob-storage - Mosaic 是否支持提取压缩数据?
我们有一个场景是将压缩文件上传到 Microsoft Azure 中的 Blob 容器中,然后读取它。
在马赛克中是否有可能做到这一点,如果可以,实现它的方法是什么?
我们有.gz
格式的文件。
apache-spark - 在 Spark 中处理压缩文件:重新分区可以提高还是降低性能
我正在使用“start_pyspark_shell”命令启动我的 spark shell,并将 cli 选项提供为 - 4 个执行程序,每个执行程序 2 个内核和 4GB 内存用于工作节点和 4GB 用于主节点
存储:HDFS
输入文件:压缩的 .csv.gz 文件,大小为 221.3 MB(HDFS 上有 2 个块)和
Spart 版本:2.4.0
手头的任务是计算文件中记录数的简单任务。唯一的问题是它是一个压缩文件。我使用加载文件
当我这样做时df.count()
,我看到有一个执行程序任务并且可能是预期的(?),因为我正在处理一个不可拆分的压缩文件并且将使用单个分区进行操作?
我检查了分区的数量——df.rdd.getNumPartitions()
它返回了 1,可能与预期的一样。
多次运行同一命令的处理时间约为 15-17 秒。
我想我们可以在这里得出结论,上述处理没有太多的并行性?
我现在尝试df.repartition(10).count()
期望数据将被重新分区到 10 个新分区中,并且可能跨工作节点。我可以看到 TASKS 的数量现在取决于我指定的分区数量。我希望在执行时间方面有一些改进的性能。原来是25-26秒。
当我使用.repartition(20)
时,它运行了 4 多分钟,我不得不杀死它。
性能降低。我是不是做错了什么,或者我错过了提高性能的任何步骤?
注意:我确实看到了一些很好的现有帖子,但仍然不清楚。因此发布一个新的查询。