“fileparsing”的相关标签问题

0 投票

3 回答

1403 浏览

python - 解析换行符分隔文件

我正在做一个项目，我想使用 Python 解析文本文件。该文件由不同块格式的一些数据条目组成。当有新行时，会找到一个新条目。这就是我想要完成的：

跳过前几行（前 16 行）
第 16 行之后，有一个换行符开始新的数据输入
阅读以下几行，直到遇到新的换行符。每个单独的行都附加到一个称为数据的列表中。
该列表将被传递给处理进一步处理的函数。
重复步骤 3 和 4，直到文件中没有更多数据

以下是该文件的示例：

这是我处理过的一些代码。它能够读取第一个块并将其附加到列表中：

如何使它适用于完整文件？我的假设是使用“with open”，它充当“虽然不是文件结尾”。在跳过前 16 行后，我尝试添加“while True”。我对 Python 的解析能力知之甚少。

提前感谢您的任何帮助。

python fileparsing

2015-05-26T00:54:07.880

0 投票

2 回答

1437 浏览

java - 在 Java 中解析 Whatsapp 日志文件

我目前正在开发一个小工具，用于分析 Whatsapp 中群聊的使用情况。

我正在尝试使用 whatsapp 日志文件来实现它。我设法将原始格式设置.txt为以下格式以处理格式化文本：

到目前为止，一切都很好。问题是有一些软盘行，例如：

甚至更糟：

我想我需要一种算法来解决这个问题，但我在编程方面还很新，无法创建如此复杂的算法。

Python中的相同问题：解析whatsApp对话日志

[编辑]

这是我的代码，它不起作用。（我知道这很糟糕）

[编辑 2]

最后我想读出文件并分析每一行：

我可以知道它是什么时候寄的，谁寄的以及他写了什么/写了多少

如果我现在得到以下行：

我不知道它是什么时候写的，也不知道是谁寄的

2015-06-26T13:57:20.667

0 投票

1 回答

425 浏览

python - 使用 Python 打开 URL 时将一个或多个文件上传到 Web 服务

我经常使用网络服务，我可以在其中拖放文件以将它们转换为另一种格式。我想知道我是否可以制作一个 python 脚本（或使用其他语言）来打开带有一些文件的 URL。

我的问题的原因是我有一个 Apple Automator 框架，我在其中根据“FolderAction”选择一些文件，将它们分类到适当的文件夹，并自动打开带有“GPX 到 TCX”转换的 URL。但是然后我需要手动拖放选定的文件并使用服务转换它们+下载文件（我可以记录 UI 操作以自动执行此操作，但它往往不可靠）。

如果我可以从脚本中完成这一切，那就太好了。所以：有一些GPX文件提供给ieg，python脚本和服务的URL，并以某种方式将文件与URL一起解析。我试图阅读 URLLIB 和 URLLIB2 以获得一些见解，但我仍然不知道是否可以使用其中任何一个。到目前为止，我的 python 用于 NumPy 和 SciPy 的严格科学。

我不知道这是否可能，但我想如果你可以拖放文件，也许你可以用 URL 以某种方式解析它们。

我会很感激一些反馈。

如果这在 Python 中是不可能的，但在其他语言中是可能的，我也会很感激指导。

python url web automation fileparsing

2015-07-01T12:06:42.093

0 投票

1 回答

2882 浏览

python - 在 celery 任务之间共享对象

我有一个程序可以处理大约 500 000 个文件 {Ai} 并且对于每个文件，它将获取一个定义 {Di} 以进行解析。

目前，每个文件 {Ai} 都由一个专用的 celery 任务解析，并且每次定义文件 {Di} 都被再次解析以生成一个对象。该对象用于解析文件 {Ai}（JSON 表示）。

我想存储定义文件（生成的对象）{Di(object)} 以使其可用于整个任务。

所以我想知道管理它的最佳选择是什么：

Memcahe + Python-memcached，
使用 set(add)/get 接口“存储”对象的长时间运行任务。

对于性能和内存使用，最佳选择是什么？

python celery fileparsing

2015-08-04T08:58:26.737

0 投票

2 回答

247 浏览

ruby - 多行解析

我正在解析一个日志文件：

每个日志都以时间戳开头。

我正在考虑单独解析日志。我想通过时间戳将它们分开并获取，所以我写了一个正则表达式：

但是，这只获取第一个日志：

而不是其余的。

第一个之后如何继续获取日志？
有没有比我的方法更好的方法来处理这个问题？

谢谢你。

ruby regex parsing fileparsing

2015-08-20T09:28:15.800

0 投票

2 回答

1287 浏览

python - 在 Python 中解析、聚合和排序文本文件

我有一个名为“names.txt”的文件，其内容如下：

问题陈述：文件“names.txt”包含一些学生记录，格式为 -

{"number": [year of birth, "name rank"]}

解析此文件并根据年份将它们隔离，然后根据排名对名称进行排序。先分拣，再分拣。输出应采用以下格式 -

所以预期的输出是 -

首先如何将此文件内容存储在字典对象中？然后按年份分组然后按等级排序名称？如何在 Python 中实现这一点？

谢谢..

python sorting grouping aggregate fileparsing

2015-08-21T16:49:07.267

0 投票

0 回答

32 浏览

php - PHP preg_match_all 与自定义文件搜索

我需要从两种类型的文件中解析出一些字符串

带有子模式的文件类型一行

文件类型两行带有子模式

从这两种文件类型中，我想解析出“一些字符串”，“一些其他字符串”，......

现在什么对性能更好：

a) 使用 preg_match_all - 我对这个非常挣扎，因为子模式也可以包含任何包装它们的东西......

b）使用自定义文件读取/解析（逐个字符，存储先前的字符和状态，...）

??

提前致谢。

php parsing string-parsing file-processing fileparsing

2015-09-04T19:39:01.127

0 投票

3 回答

53 浏览

bash - 如何根据 awk 中的值选择行？

假设我有一个结构如下的文件：

对于 $1 列中的每个值，我需要提取 $1 列中具有最高值的整行。这意味着，对于字段 AAAA，我需要打印 $2=2000 所在的行。因此，输出应如下所示：

我是用python做的，但是文件很大，这个过程非常耗时。有没有办法用awk做到这一点？

bash awk fileparsing

2015-09-15T17:25:32.540

0 投票

1 回答

278 浏览

c# - CSV 文件缺少行分隔符，如何在 C# 中读取它？

我的 CSV 文件如下，

可以看到 csv 文件在每一行的末尾包含额外的“逗号”而不是空白。并且缺少行分隔符/行分隔符，因此在 "FILE HELPERS" 中解析 csv 文件时显示错误。收到错误，因为“在归档 ['Place'] 的末尾发现了额外的逗号”

如何解决这个问题？？

我的分隔符类是这样的

和解析代码是这样的......

...

c#csv filehelpers fileparsing

2015-10-22T05:51:52.213

0 投票

0 回答

39 浏览

python - 使用 Python 解析文件时遇到 IndexError

我有一个包含以前的 tcpdump 的文件，因此该文件具有以下格式的行：

我的函数只是提取每一行中的特定字符串（源地址和目标地址）并打印出来。奇怪的是它可以工作（应该打印的所有东西都可以）但最后我得到了一个错误。

这是我的代码：

这是输出：

python list fileparsing fileparse

2015-10-30T22:50:07.210

问题标签 [fileparsing]

Reference