问题标签 [text-parsing]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

1151 问题

0 投票

2 回答

933 浏览

regex - 使用正则表达式将“姓氏”解析为人+姓氏

给定以下字符串，我想解析为名字 + 姓氏的列表：

彼得-保罗、玛丽和乔尔·范德温克尔

（和更简单的版本）

我正在尝试确定是否可以使用正则表达式来做到这一点。我已经走到这一步了

但这里的问题是我希望在不同的捕获中捕获姓氏。

我怀疑我超出了可能，但以防万一......

更新

从组中提取捕获对我来说是新的，所以这是我使用的 (C#) 代码：

我不得不稍微调整接受的答案以使其涵盖以下情况：

彼得保罗和约瑟夫范德温克尔

彼得保罗和约瑟夫范德温克尔

regex text-parsing data-entry

2009-08-24T14:10:43.310

0 投票

2 回答

1138 浏览

python - 如何从一段或一堆段落中找到标题案例短语

如何从段落中解析句子案例短语。

例如从这个段落

柯南道尔说，福尔摩斯这个角色的灵感来自约瑟夫贝尔博士，道尔曾在爱丁堡皇家医院担任职员。和福尔摩斯一样，贝尔以从最小的观察中得出大的结论而著称。 [1] 迈克尔·哈里森 (Michael Harrison) 在 1971 年埃勒里·奎因 (Ellery Queen) 的神秘杂志 (Ellery Queen's Mystery Magazine) 上发表的一篇文章中辩称，该角色的灵感来自温德尔·谢勒 (Wendell Scherer)，他是一名谋杀案的“咨询侦探”，据称该案于 1882 年在英格兰引起了报纸的大量关注。

我们需要生成像柯南道尔、福尔摩斯、约瑟夫贝尔博士、温德尔谢尔等这样的东西。

如果可能的话，我更喜欢 Pythonic 解决方案

python parsing nlp text-parsing

2009-08-27T20:04:07.123

0 投票

4 回答

480 浏览

c# - 什么是在 C# 中获取字符串字数的 Surefire 方法

我不知道该怎么做。现在我正在计算空格以获取字符串的字数，但如果有双空格，则字数将不准确。有一个更好的方法吗？

c#regex text-parsing

2009-09-02T03:54:11.920

0 投票

3 回答

2057 浏览

c# - C# - 从第一个空终止符开始修剪字符串

我有一个 C# 字符串 "RIP-1234-STOP\0\0\0\b\0\0\0???|B?Mp?\0\0\0" 从对本机驱动程序的调用返回。

如何从第一个空终止符 '\0\ 开始修剪所有字符。在这种情况下，我只想拥有“RIP-1234-STOP”。

谢谢。

2009-09-10T05:33:42.127

0 投票

4 回答

5576 浏览

c# - C#中的简单获取字符串（忽略末尾的数字）

我认为正则表达式太过分了，我也需要一些时间来编写一些代码（我想我现在应该学习一些正则表达式）。

将字符串分隔为字母数字字符串的最简单方法是什么？它总是 LLLLDDDDD。我只想要字母（l），通常只有 1 或 2 个字母。

user34537

2009-09-27T19:02:52.090

0 投票

3 回答

358 浏览

python - SimpleParse 非确定性语法直到运行时

我正在使用 Python 开发一个基本的网络协议，它应该能够传输 ASCII 字符串（读取：EOL 终止）和二进制数据。为了使后者成为可能，我选择创建语法，使其包含即将到来的二进制字节数。

对于 SimpleParse，到目前为止，语法看起来像这样 [1]：

问题是我不知道如何指示 SimpleParse 以下将是运行时SIZE_INTEGER 字节的二进制数据。

造成这种情况的原因是终端 BINARY_VALUE 的定义满足了我现在的需求，因此无法更改。

谢谢

编辑

我想解决方案会告诉它在它与生产 binary_attribute 匹配时停止并让我手动填充 AST 节点（通过 socket.recv()），但该怎么做呢？

编辑 2

Base64 编码或类似的不是一个选项。

[1]我没有测试过，所以不知道是否实用，仅供大家参考

python parsing text-parsing

2009-10-08T13:11:07.207

0 投票

3 回答

2414 浏览

java - 使用 JavaCC 格式化 ParseException

我想知道如何将 JavaCC 抛出的 ParseException 格式化为人类可读的格式：实际上，它在异常的标记引用中包含诸如beginLine, beginColumn, endColumn,之类的字段endLine，但不包含对已解析源的引用。

谢谢！:)

java parsing text-parsing javacc

2009-10-14T05:43:13.110

0 投票

2 回答

142 浏览

php - 替换php中的文本函数

我想清理一些已解析的文本，例如

\n 说的\r\n\r\n\r\n 亲爱的，我看着你的眼睛\r\n\r\n我看到了绿色滚动的森林\r\n\r\n我看到了遥远的天空\r \n\r\n他们变成了雨\r\n\r\n\r\n我看到高高翱翔的老鹰......更多\n

所以我想摆脱 "\n", "\r\n", "\r\n\r\n", "\r\n\r\n\r\n", "\r\ n\r\n\r\n\r\n”和“\r”。这就是我解析的文本中出现的所有组合。

有没有办法在php中做到这一点？

php text-parsing

2009-10-18T23:49:34.307

0 投票

1 回答

7041 浏览

regex - Oracle PL/SQL 中的正则表达式捕获组

我正在尝试将自由格式的文本变成更有条理的东西。我有一个与可用数据的绝大多数（远高于可接受的最小限制）匹配的复杂模式，我想用它来帮助构建数据，而不是逐个字符地解析文本。我刚刚遇到的问题是 Oracle 似乎没有任何方法来处理捕获组（除非我以某种方式错过了它？）。

例如，我的表达式有很多命名的捕获组，例如((?<runit_ID>\d+)-)和(STAT_N|STTN|STAT|STN) ?(?<STAT>\w+)。代码库完全用 PL/SQL 编写，因此我不能使用 C# 或其他东西按名称引用捕获组。人们如何在 PL/SQL 中解决这个问题？

regex formatting plsql text-parsing

2009-10-22T20:34:32.067

0 投票

7 回答

5180 浏览

java - Java 字符串解析 - {k1=v1,k2=v2,...}

我有以下字符串，可能包含〜100个条目：

并希望编写以下函数：

我想在不使用任何解析库的情况下做到这一点。有什么快速的想法吗？

java text-parsing

2009-10-29T15:53:32.167

1 2 3 4 5 6 7 8 9 10