我有这样的文字:
...
Sentence one. hsjdhsd jghdsjghjdskhgjksdh kjghdsjkg
sdgsdg
dgds
hfdhdf
h
fdh
dfh Sentence two. gdjshagjhsdga sdgjhsdkjgh adskjghdsa
gs a
gfdgfdhfdhh
...
我需要从这一段中提取字符串之间的文本(实际上是一个句子)句子一。和第二句。.
各位大神帮忙看看怎么拉?
谢谢
查看您所拥有的内容,句子的开头和结尾分别是大写字母和句点。您可以构造一个正则表达式,提取大写字母和之后的第一个句点之间的文本。
但这可能是一个人为的例子;看起来您可能在键盘中间有类型随机键,所以这可能不是您实际乱码的特征。
尝试这样的事情([A-Z]{1}.*\.)
?
鉴于您的语料库如上定义:
ruby -ne 'puts $_ if /Sentence/ ... /Sentence/' /tmp/corpus
将输出:
Sentence one. hsjdhsd jghdsjghjdskhgjksdh kjghdsjkg
sdgsdg
dgds
hfdhdf
h
fdh
dfh Sentence two. gdjshagjhsdga sdgjhsdkjgh adskjghdsa