我正在使用一个 3rd 方应用程序,它使用 java 的正则表达式来捕获匹配项。遗憾的是,在运行正则表达式搜索之前,我无法实现任何会在 html 文档开头添加内容的 java 代码,因为应用程序中不允许这样做。它有很多值得使用的功能,而不是传统的方式,否则我会那样做。
这个 HTML 文档实际上只有<br>
标签,但无论<br>
用于指定新段落的标签如何,每个句子后总是有一个空格。
由于 html 标签,我开始使用它,在我注意到它没有捕获第一个单词之前:
[\s](.*?)[.!?]\s
之后我尝试了一个单词边界,但没有成功,但随后它开始在每场比赛中抓取“br>”:
[\b](.*?)[.!?]\s
这样,它就可以捕获从空格或单词边界到完成句子的标点符号,然后是空格的所有内容。
这适用于整个文档中的每个其他句子,除了它在所有不同文档上每次都丢弃文档的第一个单词。可能是因为在第一个词之前什么都不存在?
这是从一开始的一些示例文本:
The troll who who lived under the bridge was quite sad. He couldn't help from
trolling without making others mad. He had no friends because of this, but he
could never stop. It made his constantly feel alone. No other soul would comfort
him. <br>
这总是返回这样的句子:
troll who who lived under the bridge was quite sad
He couldn't help from trolling without making others mad
He had no friends because of this, but he could never stop
etc...
如您所见,第一句话中缺少第一个。
它总是放弃第一个单词,因为它之前不存在任何东西(至少这是我假设的)。
我怎样才能让它工作?