问题标签 [text-parsing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
9 回答
4288 浏览

c# - 分隔字符串解析?

我正在研究解析一个分隔字符串,大约是

a,b,c

但这是一个非常简单的例子,解析分隔数据会变得很复杂;例如

1,“你的简单算法,它失败了”,真

会把你天真的 string.Split 实现吹成碎片。有什么我可以自由使用/窃取/复制和粘贴的东西,可以为解析分隔文本提供相对安全的解决方案吗?.NET,plox。

更新: 我决定使用TextFieldParser,它是隐藏在 Microsoft.VisualBasic.DLL 中的 VB.NET 一堆好东西的一部分。

0 投票
9 回答
6176 浏览

python - 优雅的结构化文本文件解析

我需要解析实时聊天对话的记录。我看到文件的第一个想法是在问题上抛出正则表达式,但我想知道人们使用了哪些其他方法。

我在标题中加上了优雅,因为我之前发现这种类型的任务存在仅依靠正则表达式难以维护的危险。

成绩单由 www.providesupport.com 生成并通过电子邮件发送到一个帐户,然后我从电子邮件中提取纯文本成绩单附件。

解析文件的原因是提取对话文本以备后用,同时识别访问者和操作员的姓名,以便可以通过 CRM 提供信息。

以下是转录文件的示例:

0 投票
26 回答
98525 浏览

c# - 在 C# 中将包含命令行参数的字符串拆分为 string[]

我有一个字符串,其中包含要传递给另一个可执行文件的命令行参数,我需要提取包含各个参数的字符串 [],就像在命令行上指定命令时 C# 一样。当通过反射执行另一个程序集入口点时,将使用 string[]。

这有标准功能吗?或者是否有正确拆分参数的首选方法(正则表达式?)?它必须正确处理可能包含空格的 '"' 分隔字符串,所以我不能只在 ' ' 上拆分。

示例字符串:

示例结果:

我不需要命令行解析库,只是一种获取应该生成的 String[] 的方法。

更新:我必须更改预期结果以匹配 C# 实际生成的结果(删除了拆分字符串中的额外“”)

0 投票
2 回答
200 浏览

.net - .NET 2.0 - 标记空格分隔的文本

假设你有这样的输出:

单词之间的空格数是任意的。我想把它分解成一个单词数组。

我使用了以下代码:

效率不高,但做得很好。

你会怎么做?

0 投票
6 回答
3508 浏览

c# - 解析 Quickbook IIF 格式文件

我正在使用 Quickbook 的 IIF 文件格式,我需要编写一个解析器来读取和写入 IIF 文件,并且在读取文件时遇到了一些问题。

这些文件很简单,它们是制表符分隔的。每一行要么是一个表定义,要么是一行。定义以“!”开头 和表名,行仅以表名开头。这是我遇到的问题:某些字段允许换行。

当我第一次遇到这个问题时,我想,好吧,只需逐个标签而不是逐行解析它,但要做到这一点,我必须用制表符替换换行符,并得到比列更多的值,但我发现用换行符分散在太多列中的值。

你将如何解析这样的文件?

编辑:一个例子

0 投票
4 回答
690 浏览

datetime - 解析模棱两可的日期(与语言无关)

我很好奇在任何给定语言中处理模棱两可的日期字符串的最佳方法是什么。如果无法预先验证您的用户输入,应该如何解析 MM/dd/YYYY 日期?

您将如何解析以下模棱两可的日期以及出于什么原因(统计、文化等)?

'1111900'是 1900 年 1 月 11 日 [ M/dd/YYYY ] 还是 1900 年 11 月 1 日 [ MM/d/YYYY ]?

0 投票
5 回答
623 浏览

python - 使用以下格式的python解析文件的最佳方法(防错/万无一失)是什么?

0 投票
3 回答
137 浏览

text - 文字不规范

有人知道那里有一个库或软件可以找到文本中的不规则之处吗?例如,假设我有...

该软件或库将首先剪切它会发现相似的文本部分(很像一个压缩软件会编码重复的相似文本部分以将其压缩)但是使用容错变量它可以找到相似的文本部分,现在很像文本比较应用程序或差异/合并工具,它实际上可以突出显示它看到的不同之处。我正在考虑制作这个工具,但我不想重新发明轮子。如果有任何远程能够做到这一点的东西,我真的很想知道可能会帮助这个项目,或者至少知道不做一个。更不用说这个答案可能会帮助其他人寻找同样的东西,我认为需求对供应来说已经足够高了,这就是为什么让我难以置信我能做到的原因

0 投票
4 回答
1308 浏览

sql - 请帮我创建一个正则表达式来解析我的 SQL 语句

我要提取

使用正则表达式。我有一个像这样的正则表达式:

提取

另外,我怎样才能摆脱大写?

谢谢

0 投票
3 回答
3520 浏览

python - Python解析

我正在尝试将 RSS 2.0 提要中的标题标签解析为该提要中每个条目的三个不同变量。使用 ElementTree 我已经解析了 RSS,以便我可以)使用以下代码打印每个标题 [减去尾随 ]:

我将其包括在内,因为如您所见, item.title 是一种 repr() 数据类型,我对此不太了解。

交互式窗口中的特定repr(item.title[0:-1]) printed 如下所示:

用户选择一个乐队,我希望在将每个变量解析item.title为 3 个变量(乐队、场地和日期各一个......或者可能是一个数组,或者我不知道......)之后,只选择与乐队相关的那些选择。然后将它们发送到 Google 进行地理编码,但这是另一回事。

我看过一些例子,regex我正在阅读它们,但它似乎非常复杂。是吗?我想也许这里有人会对如何以一种智能的方式做到这一点有一些见解。我应该使用该re模块吗?输出当前是repr()s 是否重要?有没有更好的办法?我在想我会使用这样的循环(这是我的伪Python,只是我正在写的一种笔记):

最后,我需要在 .csv(逗号分隔)文件中选择如下所示的条目:

我希望这不是太多的要求。我会自己研究它,只是想我应该在这里发帖以确保它得到答复。

所以,问题是,我如何最好repr(item.title[0:-1])地将每个值解析feed为 3 个单独的值,然后我可以将它们连接成一个 .csv 文件?