regex - 如何创建一个使用自定义单词边界获取 N 个单词的 RegEx 模式？

Question

要清楚：

@maraca 肯定回答了我最初所说的问题。但我真正需要的是返回字数≤nNumWordsToFind。因此，如果源文本只有 3 个单词，但我的 RegEx 要求 4 个单词，我需要它返回 3 个单词。如果 nNumWordsToFind > 源文本中的实际单词数，则 maraca 提供的答案失败。

例如：

one,two;three-four_five.six:seven eight    nine! ten

它会将其视为 10 个单词。如果我想要前 5 个单词，它将返回：

one,two;three-four_five.

我使用正常的 \s 空格有这个模式，它有效，但不完全是我需要的：

([\w]+\s+){<NumWordsOut>}

其中<NumWordsOut>是要返回的单词数。

我也找到了这个词边界模式，但我不知道如何使用它：

检测 ASCII 字母和非字母之间的边缘的“真实单词边界”。

(?i)(?<=^|[^a-z])(?=[a-z])|(?<=[a-z])(?=$|[^a-z])

但是，我希望我的话也允许数字。

IAC，我无法使用上述自定义单词边界模式返回文本的前 N 个单词。

顺便说一句，我将在Keyboard Maestro宏中使用它。

任何人都可以帮忙吗？TIA。

score 1 · Accepted Answer

您所要做的就是调整您的模式([\w]+\s+){<NumWordsOut>}，包括一些特殊情况：

^[\s.,;:!?*_-]*([^\s.,;:!?*_-]+([\s.,;:!?*_-]+|$)){<NumWordsOut>}
1.             2.              3.             4.  5.

请注意我如何更改的顺序-，它必须在开头或结尾，否则需要转义：\-。

score 0 · Accepted Answer

感谢@maraca 为我的问题提供了完整的答案。

我只是想为对完整解决方案感兴趣的任何人发布我使用@maraca 的 RegEx 模式构建的 Keyboard Maestro 宏。

2 回答 2