问题标签 [text-parsing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 使用正则表达式将“姓氏”解析为人+姓氏
给定以下字符串,我想解析为名字 + 姓氏的列表:
彼得-保罗、玛丽和乔尔·范德温克尔
(和更简单的版本)
我正在尝试确定是否可以使用正则表达式来做到这一点。我已经走到这一步了
但这里的问题是我希望在不同的捕获中捕获姓氏。
我怀疑我超出了可能,但以防万一......
更新
从组中提取捕获对我来说是新的,所以这是我使用的 (C#) 代码:
我不得不稍微调整接受的答案以使其涵盖以下情况:
彼得保罗和约瑟夫范德温克尔
彼得保罗和约瑟夫范德温克尔
python - 如何从一段或一堆段落中找到标题案例短语
如何从段落中解析句子案例短语。
例如从这个段落
柯南道尔说,福尔摩斯这个角色的灵感来自约瑟夫贝尔博士,道尔曾在爱丁堡皇家医院担任职员。和福尔摩斯一样,贝尔以从最小的观察中得出大的结论而著称。 [1] 迈克尔·哈里森 (Michael Harrison) 在 1971 年埃勒里·奎因 (Ellery Queen) 的神秘杂志 (Ellery Queen's Mystery Magazine) 上发表的一篇文章中辩称,该角色的灵感来自温德尔·谢勒 (Wendell Scherer),他是一名谋杀案的“咨询侦探”,据称该案于 1882 年在英格兰引起了报纸的大量关注。
我们需要生成像柯南道尔、福尔摩斯、约瑟夫贝尔博士、温德尔谢尔等这样的东西。
如果可能的话,我更喜欢 Pythonic 解决方案
c# - 什么是在 C# 中获取字符串字数的 Surefire 方法
我不知道该怎么做。现在我正在计算空格以获取字符串的字数,但如果有双空格,则字数将不准确。有一个更好的方法吗?
c# - C# - 从第一个空终止符开始修剪字符串
我有一个 C# 字符串 "RIP-1234-STOP\0\0\0\b\0\0\0???|B?Mp?\0\0\0" 从对本机驱动程序的调用返回。
如何从第一个空终止符 '\0\ 开始修剪所有字符。在这种情况下,我只想拥有“RIP-1234-STOP”。
谢谢。
c# - C#中的简单获取字符串(忽略末尾的数字)
我认为正则表达式太过分了,我也需要一些时间来编写一些代码(我想我现在应该学习一些正则表达式)。
将字符串分隔为字母数字字符串的最简单方法是什么?它总是 LLLLDDDDD。我只想要字母(l),通常只有 1 或 2 个字母。
python - SimpleParse 非确定性语法直到运行时
我正在使用 Python 开发一个基本的网络协议,它应该能够传输 ASCII 字符串(读取:EOL 终止)和二进制数据。为了使后者成为可能,我选择创建语法,使其包含即将到来的二进制字节数。
对于 SimpleParse,到目前为止,语法看起来像这样 [1]:
问题是我不知道如何指示 SimpleParse 以下将是运行时SIZE_INTEGER 字节的二进制数据。
造成这种情况的原因是终端 BINARY_VALUE 的定义满足了我现在的需求,因此无法更改。
谢谢
编辑
我想解决方案会告诉它在它与生产 binary_attribute 匹配时停止并让我手动填充 AST 节点(通过 socket.recv()),但该怎么做呢?
编辑 2
Base64 编码或类似的不是一个选项。
[1]我没有测试过,所以不知道是否实用,仅供大家参考
java - 使用 JavaCC 格式化 ParseException
我想知道如何将 JavaCC 抛出的 ParseException 格式化为人类可读的格式:实际上,它在异常的标记引用中包含诸如beginLine
, beginColumn
, endColumn
,之类的字段endLine
,但不包含对已解析源的引用。
谢谢!:)
php - 替换php中的文本函数
我想清理一些已解析的文本,例如
\n 说的\r\n\r\n\r\n 亲爱的,我看着你的眼睛\r\n\r\n我看到了绿色滚动的森林\r\n\r\n我看到了遥远的天空\r \n\r\n他们变成了雨\r\n\r\n\r\n我看到高高翱翔的老鹰......更多\n
所以我想摆脱 "\n", "\r\n", "\r\n\r\n", "\r\n\r\n\r\n", "\r\ n\r\n\r\n\r\n”和“\r”。这就是我解析的文本中出现的所有组合。
有没有办法在php中做到这一点?
regex - Oracle PL/SQL 中的正则表达式捕获组
我正在尝试将自由格式的文本变成更有条理的东西。我有一个与可用数据的绝大多数(远高于可接受的最小限制)匹配的复杂模式,我想用它来帮助构建数据,而不是逐个字符地解析文本。我刚刚遇到的问题是 Oracle 似乎没有任何方法来处理捕获组(除非我以某种方式错过了它?)。
例如,我的表达式有很多命名的捕获组,例如((?<runit_ID>\d+)-)
和(STAT_N|STTN|STAT|STN) ?(?<STAT>\w+)
。代码库完全用 PL/SQL 编写,因此我不能使用 C# 或其他东西按名称引用捕获组。人们如何在 PL/SQL 中解决这个问题?
java - Java 字符串解析 - {k1=v1,k2=v2,...}
我有以下字符串,可能包含〜100个条目:
并希望编写以下函数:
我想在不使用任何解析库的情况下做到这一点。有什么快速的想法吗?