问题标签 [file-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
141 浏览

.net - 是否有第 3 方 .NET 库/程序集可以使用元数据驱动的方法解析和导入文件?

我需要解析一堆分隔的平面文件并将它们导入数据库。我可以构建自己的简单元数据驱动的解析器和导入器,但我认为肯定已经有类似的东西了?

谢谢,戴夫。

0 投票
10 回答
42330 浏览

linux - 从文件中随机选择行而不用 Unix 啜饮它

我有一个 10^7 行的文件,我想从文件中随机选择 1/100 行。这是我拥有的 AWK 代码,但它会预先删除所有文件内容。我的电脑内存无法处理这样的啜饮。还有其他方法吗?

0 投票
4 回答
283 浏览

c++ - 如何正确解析我的文件?(使用中断/继续)

例如,我有以下看起来像这样的数据:

34 foo
34 酒吧
34 qux
62 foo1
62 qux
78 qux

这些是根据第一列排序的。

我想要做的是处理以 34 开头的行,但我也希望文件迭代在它不再找到 34s 后退出,而不必扫描整个文件。我该怎么做?

原因是因为要处理的行数非常大(~10^7)。而那些以 34 开头的只占其中的 1-10% 左右。

我知道我可以 grep 这些行并将其输出到另一个文件中,但这太乏味并且会消耗更多磁盘空间。

此代码说明了我使用“继续”的失败尝试:

0 投票
7 回答
4513 浏览

perl - 如何使用 Perl 从文件中准确获取 n 个随机行?

跟进这个问题,我需要从文件(或)n中随机获取准确的行。stdin这将类似于heador tail,除了我想要一些来自中间的。

现在,除了使用链接问题的解决方案循环文件之外,n在一次运行中获得精确行的最佳方法是什么?

作为参考,我试过这个:

$ratio我想要的线条的粗略百分比在哪里。例如,如果我想要 10 行中的 1 行:

但是,这并没有给我一个确切的数量:

我的另一个想法是吞食输入文件,然后n从数组中随机选择,但如果我有一个非常大的文件,那就是个问题。

有任何想法吗?

编辑:这是这个问题的完全重复。

0 投票
2 回答
3990 浏览

java - 使用Java读取和处理文件时如何防止文件被覆盖?

我需要用Java读取和处理一些大文件,我想知道,是否有一些明智的方法来保护文件,在我读取和处理它时它不会被其他进程覆盖?

也就是说,以某种方式使其成为只读,使其保持“打开”或其他...

这将在 Windows 环境中完成。

兄弟,图科

0 投票
2 回答
344 浏览

vb.net - 我应该如何在异常时移动文件?

要求:发生错误(抛出异常)时,应将正在处理的文件移动到有错误文件的文件夹(app.config 设置)。

问题:我可以处理这个问题的唯一方法是在主 Try/Catch 内有一个嵌套的 Try/Catch 来尝试移动文件,这样如果移动失败,则会引发另一个异常。我知道我可以尽我所能确保目录存在,赋予权限,但由于它是一个网络驱动器......我只知道在某些时候一定会发生错误。

例子

实际上,这比我想象的要可怕得多。

现在我知道我做错了什么。我应该如何真正尝试处理捕获中可能发生的错误,以便我仍然可以移动文件并尝试调用我的事件?

0 投票
2 回答
1195 浏览

php - 在 PHP 中附加到 HTML 日志文件

我正在尝试附加到日志文件,对每个事件使用 HTML 表格格式。但是,有一个困难我不知道如何解决。这是 HTML 的静态输出

问题是如何在不弄乱 HTML 的情况下快速将日志条目快速插入表中,最好使用最少的处理量?我知道我可以加载整个文件,使用模板解决方案并重写文件,但这可能很慢(日志文件可能会快速增长!)。

所以我正在寻找通常打开的文件进行追加,并以某种方式在最后一行之后,但在标签之前写入。

有什么建议么?

PS。我知道如果我在最后省略标签,大多数浏览器都会呈现 HMTL,但我很想知道是否有一个理想的解决方案。

0 投票
3 回答
512 浏览

system - 设计处理多种文件格式、解析、验证和持久性的文件处理

如果您必须设计一个文件处理组件/系统,它可以采用多种文件格式(包括专有格式,如 Excel),解析/验证并将此信息存储到数据库中。您会怎么做?

注意:95% 的时间 1 行输入数据将等于数据库中的一条记录,但并非总是如此。

目前我正在使用一些我设计的自定义软件来解析/验证/将客户数据存储到我们的数据库中。系统通过文件系统中的位置(从 ftp 下载)识别文件,然后加载 XML“定义”文件。(根据输入文件的放置位置加载正确的 XML)。

XML 指定文件布局(定界或固定宽度)和字段特定项(长度、数据类型(数字、字母、字母数字)以及将字段存储到哪个 DB 列)等内容。

由于这种设计,输入文件必须是文本(固定宽度或分隔),并且从输入文件数据字段到 DB 列具有 1 对 1 的关系。

我想扩展我们的文件处理系统的功能以接受 Excel 或其他文件格式。

我至少有六种方法可以继续,但我现在被困住了,因为我没有人可以真正从这些想法中汲取灵感。

再说一遍:如果你必须设计一个文件处理组件,它可以采用多种文件格式(包括专有格式,如 Excel),解析/验证并将这些信息存储到数据库中。你会怎么做?

0 投票
3 回答
200 浏览

c# - 用于在编写/修改文件时分析文件的 C# 解决方案

我有几个项目需要我监视文件,然后在将它们写入磁盘时对其进行编辑。我有一种感觉,我正在寻找的东西在操作上与反病毒工具的操作方式相同。让我提供更多详细信息:1)我需要捕获 Office 应用程序保存的所有文件,然后在每个文档写入磁盘时将特定的公司标签添加到每个文档的页眉/页脚。2)我需要立即知道何时将可编辑文件(几乎任何类型)写入磁盘,以便我可以进行一些扫描操作以检查文件内容是否符合某些公司政策。

简而言之,您可以看到我需要在将任何用户文件写入磁盘时对其进行处理。

这是我的问题。我想使用 C# 来完成这项任务,但我不确定它是否能够满足我的要求。我在网上看到的一切都是针对低级 C 编程的,由于这个项目的时间限制,我特别想避免这种情况。任何人都知道如何在 C# 中轻松完成这项任务?它是否可行(即语言太高级,语言太慢等)?

0 投票
1 回答
1695 浏览

workflow-foundation - 使用 Workflow Foundation 进行文件处理

我的任务是建立一个新的工作流系统来处理我们的服务订单。我一直在研究 Windows Workflow Foundation 作为管理工作流步骤的引擎,并且喜欢我在文件处理之前看到的内容。

我们的工作流程中有一个步骤,我们正在等待供应商返回文件。该文件包含多个记录,每个记录映射到一个单独的工作流。这个想法是使用 WF 中的持久性功能,以便在文件中返回数据后,工作流的其余部分可以继续。

持久性模型的问题是使用 SSIS 之类的东西为文件中的每一行调用 WF 服务的可伸缩性。对于小文件,这不是问题,但文件有可能变得非常大。

有没有人用 Workflow Foundation 做过类似的事情?

谢谢,克里斯