问题标签 [fileparsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1403 浏览

python - 解析换行符分隔文件

我正在做一个项目,我想使用 Python 解析文本文件。该文件由不同块格式的一些数据条目组成。当有新行时,会找到一个新条目。这就是我想要完成的:

  1. 跳过前几行(前 16 行)
  2. 第 16 行之后,有一个换行符开始新的数据输入
  3. 阅读以下几行,直到遇到新的换行符。每个单独的行都附加到一个称为数据的列表中。
  4. 该列表将被传递给处理进一步处理的函数。
  5. 重复步骤 3 和 4,直到文件中没有更多数据

以下是该文件的示例:

这是我处理过的一些代码。它能够读取第一个块并将其附加到列表中:

如何使它适用于完整文件?我的假设是使用“with open”,它充当“虽然不是文件结尾”。在跳过前 16 行后,我尝试添加“while True”。我对 Python 的解析能力知之甚少。

提前感谢您的任何帮助。

0 投票
2 回答
1437 浏览

java - 在 Java 中解析 Whatsapp 日志文件

我目前正在开发一个小工具,用于分析 Whatsapp 中群聊的使用情况。

我正在尝试使用 whatsapp 日志文件来实现它。我设法将原始格式设置.txt为以下格式以处理格式化文本:

到目前为止,一切都很好。问题是有一些软盘行,例如:

甚至更糟:

我想我需要一种算法来解决这个问题,但我在编程方面还很新,无法创建如此复杂的算法。

Python中的相同问题:解析whatsApp对话日志

[编辑]

这是我的代码,它不起作用。(我知道这很糟糕)

[编辑 2]

最后我想读出文件并分析每一行:

我可以知道它是什么时候寄的,谁寄的以及他写了什么/写了多少

如果我现在得到以下行:

我不知道它是什么时候写的,也不知道是谁寄的

0 投票
1 回答
425 浏览

python - 使用 Python 打开 URL 时将一个或多个文件上传到 Web 服务

我经常使用网络服务,我可以在其中拖放文件以将它们转换为另一种格式。我想知道我是否可以制作一个 python 脚本(或使用其他语言)来打开带有一些文件的 URL。

我的问题的原因是我有一个 Apple Automator 框架,我在其中根据“FolderAction”选择一些文件,将它们分类到适当的文件夹,并自动打开带有“GPX 到 TCX”转换的 URL。但是然后我需要手动拖放选定的文件并使用服务转换它们+下载文件(我可以记录 UI 操作以自动执行此操作,但它往往不可靠)。

如果我可以从脚本中完成这一切,那就太好了。所以:有一些GPX文件提供给ieg,python脚本和服务的URL,并以某种方式将文件与URL一起解析。我试图阅读 URLLIB 和 URLLIB2 以获得一些见解,但我仍然不知道是否可以使用其中任何一个。到目前为止,我的 python 用于 NumPy 和 SciPy 的严格科学。

我不知道这是否可能,但我想如果你可以拖放文件,也许你可以用 URL 以某种方式解析它们。

我会很感激一些反馈。

如果这在 Python 中是不可能的,但在其他语言中是可能的,我也会很感激指导。

0 投票
1 回答
2882 浏览

python - 在 celery 任务之间共享对象

我有一个程序可以处理大约 500 000 个文件 {Ai} 并且对于每个文件,它将获取一个定义 {Di} 以进行解析。

目前,每个文件 {Ai} 都由一个专用的 celery 任务解析,并且每次定义文件 {Di} 都被再次解析以生成一个对象。该对象用于解析文件 {Ai}(JSON 表示)。

我想存储定义文件(生成的对象){Di(object)} 以使其可用于整个任务。

所以我想知道管理它的最佳选择是什么:

  1. Memcahe + Python-memcached,
  2. 使用 set(add)/get 接口“存储”对象的长时间运行任务。

对于性能和内存使用,最佳选择是什么?

0 投票
2 回答
247 浏览

ruby - 多行解析

我正在解析一个日志文件:

每个日志都以时间戳开头。

我正在考虑单独解析日志。我想通过时间戳将它们分开并获取,所以我写了一个正则表达式:

但是,这只获取第一个日志:

而不是其余的。

  1. 第一个之后如何继续获取日志?
  2. 有没有比我的方法更好的方法来处理这个问题?

谢谢你。

0 投票
2 回答
1287 浏览

python - 在 Python 中解析、聚合和排序文本文件

我有一个名为“names.txt”的文件,其内容如下:

问题陈述:文件“names.txt”包含一些学生记录,格式为 -

{"number": [year of birth, "name rank"]}

解析此文件并根据年份将它们隔离,然后根据排名对名称进行排序。先分拣,再分拣。输出应采用以下格式 -

所以预期的输出是 -

首先如何将此文件内容存储在字典对象中?然后按年份分组然后按等级排序名称?如何在 Python 中实现这一点?

谢谢..

0 投票
0 回答
32 浏览

php - PHP preg_match_all 与自定义文件搜索

我需要从两种类型的文件中解析出一些字符串

带有子模式的文件类型一行

文件类型两行带有子模式

从这两种文件类型中,我想解析出“一些字符串”,“一些其他字符串”,......

现在什么对性能更好:

a) 使用 preg_match_all - 我对这个非常挣扎,因为子模式也可以包含任何包装它们的东西......

b)使用自定义文件读取/解析(逐个字符,存储先前的字符和状态,...)

??

提前致谢。

0 投票
3 回答
53 浏览

bash - 如何根据 awk 中的值选择行?

假设我有一个结构如下的文件:

对于 $1 列中的每个值,我需要提取 $1 列中具有最高值的整行。这意味着,对于字段 AAAA,我需要打印 $2=2000 所在的行。因此,输出应如下所示:

我是用python做的,但是文件很大,这个过程非常耗时。有没有办法用awk做到这一点?

0 投票
1 回答
278 浏览

c# - CSV 文件缺少行分隔符,如何在 C# 中读取它?

我的 CSV 文件如下,

可以看到 csv 文件在每一行的末尾包含额外的“逗号”而不是空白。并且缺少行分隔符/行分隔符,因此在 "FILE HELPERS" 中解析 csv 文件时显示错误。收到错误,因为“在归档 ['Place'] 的末尾发现了额外的逗号”

如何解决这个问题??

我的分隔符类是这样的

和解析代码是这样的......

...

0 投票
0 回答
39 浏览

python - 使用 Python 解析文件时遇到 IndexError

我有一个包含以前的 tcpdump 的文件,因此该文件具有以下格式的行:

我的函数只是提取每一行中的特定字符串(源地址和目标地址)并打印出来。奇怪的是它可以工作(应该打印的所有东西都可以)但最后我得到了一个错误。

这是我的代码:

这是输出: