我有这样的文本文件,其中包含带有换行符的文本。我将该文本文件读入字符串
random Text
State v. USA
some more text
USA v.
NY
Some more text
USA
v.LA , MN v. ND
USA vs. MN
我想知道模式的偏移量(即开始和结束字符索引),例如[Some word started with cap] v. [Some word beginning with cap]
或者 [一些以大写开头的词] vs. [一些以大写开头的词]
对于上面的例子 "State v. USA" => Start=11 and End=22
“美国诉纽约” =>开始 = 36 和结束 = 45
我从http://rubular.com/r/T7Ii2WDADw之类的东西开始,它并不涵盖所有情况。
因此,程序可以返回一个 Map,其中键是 Start+","+End,值是实际文本,例如 "State v. USA"