-1

我有这样的文字:

...
Sentence one. hsjdhsd jghdsjghjdskhgjksdh kjghdsjkg

sdgsdg
dgds
hfdhdf
h
fdh
dfh Sentence two. gdjshagjhsdga sdgjhsdkjgh adskjghdsa
gs a
gfdgfdhfdhh
...

我需要从这一段中提取字符串之间的文本(实际上是一个句子)句子一。第二句。.

各位大神帮忙看看怎么拉?

谢谢

4

3 回答 3

1

查看您所拥有的内容,句子的开头和结尾分别是大写字母和句点。您可以构造一个正则表达式,提取大写字母和之后的第一个句点之间的文本。

但这可能是一个人为的例子;看起来您可能在键盘中间有类型随机键,所以这可能不是您实际乱码的特征。

于 2013-05-21T16:35:20.907 回答
1

尝试这样的事情([A-Z]{1}.*\.)

于 2013-05-21T17:46:28.670 回答
0

使用条件触发器表达式

鉴于您的语料库如上定义:

ruby -ne 'puts $_ if /Sentence/ ... /Sentence/' /tmp/corpus

将输出:

Sentence one. hsjdhsd jghdsjghjdskhgjksdh kjghdsjkg

sdgsdg
dgds
hfdhdf
h
fdh
dfh Sentence two. gdjshagjhsdga sdgjhsdkjgh adskjghdsa
于 2013-05-21T22:46:27.833 回答