我想修补一些从网页中提取的文本数据。样本:
t="First sentence. Second sentence.Third sentence."
第二句末尾的点后面没有空格。这表明第 3 句在原始文档中位于单独的行中(在 br 标记之后)。
我想使用这个正则表达式将“\n”字符插入适当的位置并修补我的文本。我的正则表达式:
t2=t.gsub(/([.\!?])([A-Z1-9])/,$1+"\n"+$2)
但不幸的是它不起作用:“NoMethodError: undefined method `+' for nil:NilClass” 如何正确反向引用匹配的组?在 Microsoft Word 中非常简单,我只需要使用 \1 和 \2 符号。