问题标签 [file-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
350 浏览

c# - c# - 逐行处理大文件 - 优化

因此,我目前正在尝试研究在 c# 中处理大文件的最佳方法。我们目前有一个包含 1000 万多行数据的大文件。最初,我的客户说该文件将包含数万行,因此我们之前将每一行写入一个新文件,并由我们的接口引擎提取以进行处理。然而,现在我们看到这些文件比预期的要大得多,处理需要一个周末。我正在尝试优化我们的逻辑,并正在研究实现它的最佳方法。我试图让多个线程从单个文件中读取,但磁盘 I/O 的机械瓶颈并没有提供太大的改进空间。下一个方法是读取每一行并在单独的线程上处理每一行(或一组行)。这将给我们一些优化,因为每行的处理可以同时完成。我知道有些人在处理非常大的文件方面有丰富的经验,并希望得到一些关于我的方法的反馈,或者可能得到一些替代方法来解决这个问题。

任何想法和意见表示赞赏。

0 投票
1 回答
55 浏览

php - 如果写入文件失败,文件会发生什么?

该文件是否仍具有正确的先前内容?

1)当使用file_put_contents函数发生错误时

2)当使用复制函数发生错误时

我问是因为我想实现半动态页面,我想知道这个过程中的错误是否会导致网页出现问题?

0 投票
1 回答
90 浏览

bash - 如何在 bash 中处理文件内容

我想处理内容上的 PHP 文件,但我只对< ?php ... ?>之间的部分感兴趣。其余部分应删除并保存到新文件中。下面我已经根据此页面多行 sed search的代码编写了部分代码。但它只给出了第一部分。

有人有解决方案吗?awk、grep 也可以。谢谢

0 投票
3 回答
6032 浏览

batch-file - 解析制表符分隔的文本文件

我需要通过抓取特定列(如第 1 列和第 5 列)来解析一个制表符分隔的文本文件,并将这些列中的每一个输出到一个文本文件中。请查找数据文件的示例和代码:

数据文件:

批处理文件:

这可行,但是,For循环在第一行停止。

你能帮我找出问题吗?

0 投票
2 回答
59 浏览

java - java程序文件在临时IO异常时重新处理

我正在处理大量文件,比如使用 java 程序处理 1000 个文件。处理每个文件需要大量时间。问题是:当我处理文件时,由于一些未知问题(可能是防病毒或任何其他问题)输入文件无法被 java 程序访问,所以我得到“访问被拒绝”并最终得到“java.io .FileNotFoundException”。

一种可能的解决方案是,每当我遇到异常时,我都会再次调用该函数来处理文件,但是使用文件名调用该函数很困难,因为该函数是递归函数,它递归地处理目录和文件。请建议我替代方法。

0 投票
1 回答
808 浏览

vb.net - 控制台 VB.NET:文件处理 - 搜索特定编号的文件并输出记录

您好,我正在 VB.NET 中构建一个控制台应用程序,它读取记录文件并将其输出给用户。我已经让程序将所有记录输出到控制台,但我似乎无法让搜索功能正常工作。

我希望用户输入记录号并让程序在文本文件中搜索该特定记录,然后将其输出到控制台。

我将把读取记录功能留在这里以供参考。

读取记录功能:

0 投票
1 回答
2842 浏览

perl - Perl - 未知的行尾字符

我想逐行读取输入文件,但该文件有未知结尾字符

编辑器vim也不知道,它将这个字符表示为 ^A并立即以换行符开始。对于perl. 它试图一次加载所有行,因为它忽略了这些奇怪的行尾字符。

如何将此字符设置为 perl 的行尾?我不想为它使用任何特殊的模块(因为我们严格的系统),我只想定义行hex尾的字符(可能在代码中)。

另一种选择是将文件转换为另一个具有良好行尾字符的文件(替换它们)。我可以用一些简单的方法(比如sed输入文件)吗?但是一切都需要在 perl 中完成。

有可能的?

现在,我的阅读部分看起来像:

0 投票
2 回答
1474 浏览

join - 使用hadoop连接同一目录中的两个文件

我是一个总的hadoop n00b。作为我的第一个 hadoop 项目,我正在尝试解决以下问题。我有一百万多个子文件夹位于亚马逊 S3 存储桶中。这些文件夹中的每一个都有两个文件。文件 1 的数据如下:

File2 有客户的信息,格式如下:

这种相同的模式在存储桶中的所有文件夹中重复出现。

在将所有这些数据写入 HDFS 之前,我想加入 File1 和 File2,如下所示:

加入档案:

我需要为每个文件夹执行此操作,然后将此连接的数据集输入 HDFS。有人可以指出我如何能够在 Hadoop 中实现这样的目标。朝着正确的方向推动将不胜感激。

0 投票
3 回答
6046 浏览

java - 使用 Java 读取文件的最后 n 个字节

我有一个记录一些文件的爬虫程序。有时在服务器上,会发生一些错误,爬虫会创建大量无法解析的日志文件。出于这个原因,我想创建一个简单的程序,它在日志文件的末尾读取大约 1000 个字符并向我显示消息(即使爬虫仍在写入该文件)。这将帮助我在不关闭爬虫的情况下解决问题。

0 投票
2 回答
49 浏览

c++ - 写入文件的最后 32 个字符

我想将信息写入二进制文件的最后 32 个字符。但是当我调用我的 writeInfo 函数时,它会删除整个内容。我可以在写之前读取数据,但是在我用这个函数写之后,它会删除整个内容,而不是写。

希望能帮到你,谢谢