问题标签 [fileparsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 解析换行符分隔文件
我正在做一个项目,我想使用 Python 解析文本文件。该文件由不同块格式的一些数据条目组成。当有新行时,会找到一个新条目。这就是我想要完成的:
- 跳过前几行(前 16 行)
- 第 16 行之后,有一个换行符开始新的数据输入
- 阅读以下几行,直到遇到新的换行符。每个单独的行都附加到一个称为数据的列表中。
- 该列表将被传递给处理进一步处理的函数。
- 重复步骤 3 和 4,直到文件中没有更多数据
以下是该文件的示例:
这是我处理过的一些代码。它能够读取第一个块并将其附加到列表中:
如何使它适用于完整文件?我的假设是使用“with open”,它充当“虽然不是文件结尾”。在跳过前 16 行后,我尝试添加“while True”。我对 Python 的解析能力知之甚少。
提前感谢您的任何帮助。
java - 在 Java 中解析 Whatsapp 日志文件
我目前正在开发一个小工具,用于分析 Whatsapp 中群聊的使用情况。
我正在尝试使用 whatsapp 日志文件来实现它。我设法将原始格式设置.txt
为以下格式以处理格式化文本:
到目前为止,一切都很好。问题是有一些软盘行,例如:
甚至更糟:
我想我需要一种算法来解决这个问题,但我在编程方面还很新,无法创建如此复杂的算法。
Python中的相同问题:解析whatsApp对话日志
[编辑]
这是我的代码,它不起作用。(我知道这很糟糕)
[编辑 2]
最后我想读出文件并分析每一行:
我可以知道它是什么时候寄的,谁寄的以及他写了什么/写了多少
如果我现在得到以下行:
我不知道它是什么时候写的,也不知道是谁寄的
python - 使用 Python 打开 URL 时将一个或多个文件上传到 Web 服务
我经常使用网络服务,我可以在其中拖放文件以将它们转换为另一种格式。我想知道我是否可以制作一个 python 脚本(或使用其他语言)来打开带有一些文件的 URL。
我的问题的原因是我有一个 Apple Automator 框架,我在其中根据“FolderAction”选择一些文件,将它们分类到适当的文件夹,并自动打开带有“GPX 到 TCX”转换的 URL。但是然后我需要手动拖放选定的文件并使用服务转换它们+下载文件(我可以记录 UI 操作以自动执行此操作,但它往往不可靠)。
如果我可以从脚本中完成这一切,那就太好了。所以:有一些GPX文件提供给ieg,python脚本和服务的URL,并以某种方式将文件与URL一起解析。我试图阅读 URLLIB 和 URLLIB2 以获得一些见解,但我仍然不知道是否可以使用其中任何一个。到目前为止,我的 python 用于 NumPy 和 SciPy 的严格科学。
我不知道这是否可能,但我想如果你可以拖放文件,也许你可以用 URL 以某种方式解析它们。
我会很感激一些反馈。
如果这在 Python 中是不可能的,但在其他语言中是可能的,我也会很感激指导。
python - 在 celery 任务之间共享对象
我有一个程序可以处理大约 500 000 个文件 {Ai} 并且对于每个文件,它将获取一个定义 {Di} 以进行解析。
目前,每个文件 {Ai} 都由一个专用的 celery 任务解析,并且每次定义文件 {Di} 都被再次解析以生成一个对象。该对象用于解析文件 {Ai}(JSON 表示)。
我想存储定义文件(生成的对象){Di(object)} 以使其可用于整个任务。
所以我想知道管理它的最佳选择是什么:
- Memcahe + Python-memcached,
- 使用 set(add)/get 接口“存储”对象的长时间运行任务。
对于性能和内存使用,最佳选择是什么?
ruby - 多行解析
我正在解析一个日志文件:
每个日志都以时间戳开头。
我正在考虑单独解析日志。我想通过时间戳将它们分开并获取,所以我写了一个正则表达式:
但是,这只获取第一个日志:
而不是其余的。
- 第一个之后如何继续获取日志?
- 有没有比我的方法更好的方法来处理这个问题?
谢谢你。
python - 在 Python 中解析、聚合和排序文本文件
我有一个名为“names.txt”的文件,其内容如下:
问题陈述:文件“names.txt”包含一些学生记录,格式为 -
{"number": [year of birth, "name rank"]}
解析此文件并根据年份将它们隔离,然后根据排名对名称进行排序。先分拣,再分拣。输出应采用以下格式 -
所以预期的输出是 -
首先如何将此文件内容存储在字典对象中?然后按年份分组然后按等级排序名称?如何在 Python 中实现这一点?
谢谢..
php - PHP preg_match_all 与自定义文件搜索
我需要从两种类型的文件中解析出一些字符串
带有子模式的文件类型一行
文件类型两行带有子模式
从这两种文件类型中,我想解析出“一些字符串”,“一些其他字符串”,......
现在什么对性能更好:
a) 使用 preg_match_all - 我对这个非常挣扎,因为子模式也可以包含任何包装它们的东西......
b)使用自定义文件读取/解析(逐个字符,存储先前的字符和状态,...)
??
提前致谢。
bash - 如何根据 awk 中的值选择行?
假设我有一个结构如下的文件:
对于 $1 列中的每个值,我需要提取 $1 列中具有最高值的整行。这意味着,对于字段 AAAA,我需要打印 $2=2000 所在的行。因此,输出应如下所示:
我是用python做的,但是文件很大,这个过程非常耗时。有没有办法用awk做到这一点?
c# - CSV 文件缺少行分隔符,如何在 C# 中读取它?
我的 CSV 文件如下,
可以看到 csv 文件在每一行的末尾包含额外的“逗号”而不是空白。并且缺少行分隔符/行分隔符,因此在 "FILE HELPERS" 中解析 csv 文件时显示错误。收到错误,因为“在归档 ['Place'] 的末尾发现了额外的逗号”
如何解决这个问题??
我的分隔符类是这样的
和解析代码是这样的......
...
python - 使用 Python 解析文件时遇到 IndexError
我有一个包含以前的 tcpdump 的文件,因此该文件具有以下格式的行:
我的函数只是提取每一行中的特定字符串(源地址和目标地址)并打印出来。奇怪的是它可以工作(应该打印的所有东西都可以)但最后我得到了一个错误。
这是我的代码:
这是输出: