问题标签 [file-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c# - c# - 逐行处理大文件 - 优化
因此,我目前正在尝试研究在 c# 中处理大文件的最佳方法。我们目前有一个包含 1000 万多行数据的大文件。最初,我的客户说该文件将包含数万行,因此我们之前将每一行写入一个新文件,并由我们的接口引擎提取以进行处理。然而,现在我们看到这些文件比预期的要大得多,处理需要一个周末。我正在尝试优化我们的逻辑,并正在研究实现它的最佳方法。我试图让多个线程从单个文件中读取,但磁盘 I/O 的机械瓶颈并没有提供太大的改进空间。下一个方法是读取每一行并在单独的线程上处理每一行(或一组行)。这将给我们一些优化,因为每行的处理可以同时完成。我知道有些人在处理非常大的文件方面有丰富的经验,并希望得到一些关于我的方法的反馈,或者可能得到一些替代方法来解决这个问题。
任何想法和意见表示赞赏。
php - 如果写入文件失败,文件会发生什么?
该文件是否仍具有正确的先前内容?
1)当使用file_put_contents函数发生错误时
2)当使用复制函数发生错误时
我问是因为我想实现半动态页面,我想知道这个过程中的错误是否会导致网页出现问题?
bash - 如何在 bash 中处理文件内容
我想处理内容上的 PHP 文件,但我只对< ?php ... ?>之间的部分感兴趣。其余部分应删除并保存到新文件中。下面我已经根据此页面多行 sed search的代码编写了部分代码。但它只给出了第一部分。
有人有解决方案吗?awk、grep 也可以。谢谢
batch-file - 解析制表符分隔的文本文件
我需要通过抓取特定列(如第 1 列和第 5 列)来解析一个制表符分隔的文本文件,并将这些列中的每一个输出到一个文本文件中。请查找数据文件的示例和代码:
数据文件:
批处理文件:
这可行,但是,For
循环在第一行停止。
你能帮我找出问题吗?
java - java程序文件在临时IO异常时重新处理
我正在处理大量文件,比如使用 java 程序处理 1000 个文件。处理每个文件需要大量时间。问题是:当我处理文件时,由于一些未知问题(可能是防病毒或任何其他问题)输入文件无法被 java 程序访问,所以我得到“访问被拒绝”并最终得到“java.io .FileNotFoundException”。
一种可能的解决方案是,每当我遇到异常时,我都会再次调用该函数来处理文件,但是使用文件名调用该函数很困难,因为该函数是递归函数,它递归地处理目录和文件。请建议我替代方法。
vb.net - 控制台 VB.NET:文件处理 - 搜索特定编号的文件并输出记录
您好,我正在 VB.NET 中构建一个控制台应用程序,它读取记录文件并将其输出给用户。我已经让程序将所有记录输出到控制台,但我似乎无法让搜索功能正常工作。
我希望用户输入记录号并让程序在文本文件中搜索该特定记录,然后将其输出到控制台。
我将把读取记录功能留在这里以供参考。
读取记录功能:
perl - Perl - 未知的行尾字符
我想逐行读取输入文件,但该文件有未知结尾字符。
编辑器vim
也不知道,它将这个字符表示为 ^A
并立即以换行符开始。对于perl
. 它试图一次加载所有行,因为它忽略了这些奇怪的行尾字符。
如何将此字符设置为 perl 的行尾?我不想为它使用任何特殊的模块(因为我们严格的系统),我只想定义行hex
尾的字符(可能在代码中)。
另一种选择是将文件转换为另一个具有良好行尾字符的文件(替换它们)。我可以用一些简单的方法(比如sed
输入文件)吗?但是一切都需要在 perl 中完成。
有可能的?
现在,我的阅读部分看起来像:
join - 使用hadoop连接同一目录中的两个文件
我是一个总的hadoop n00b。作为我的第一个 hadoop 项目,我正在尝试解决以下问题。我有一百万多个子文件夹位于亚马逊 S3 存储桶中。这些文件夹中的每一个都有两个文件。文件 1 的数据如下:
File2 有客户的信息,格式如下:
这种相同的模式在存储桶中的所有文件夹中重复出现。
在将所有这些数据写入 HDFS 之前,我想加入 File1 和 File2,如下所示:
加入档案:
我需要为每个文件夹执行此操作,然后将此连接的数据集输入 HDFS。有人可以指出我如何能够在 Hadoop 中实现这样的目标。朝着正确的方向推动将不胜感激。
java - 使用 Java 读取文件的最后 n 个字节
我有一个记录一些文件的爬虫程序。有时在服务器上,会发生一些错误,爬虫会创建大量无法解析的日志文件。出于这个原因,我想创建一个简单的程序,它在日志文件的末尾读取大约 1000 个字符并向我显示消息(即使爬虫仍在写入该文件)。这将帮助我在不关闭爬虫的情况下解决问题。
c++ - 写入文件的最后 32 个字符
我想将信息写入二进制文件的最后 32 个字符。但是当我调用我的 writeInfo 函数时,它会删除整个内容。我可以在写之前读取数据,但是在我用这个函数写之后,它会删除整个内容,而不是写。
希望能帮到你,谢谢