我在一个带有开始和结束索引的文件中有 3 个字符串。
Start:127 stop:139 name:barackObama
Start:144 stop:148 name:born
Start:149 stop:163 name:August 4 1961
现在我必须使用 BreakIterator 检查这 3 个字符串是否在同一个句子中。BreakIterator 将文本拆分为边界为 0 到 n 的句子。但是在这里我有字符串的开始和结束索引。如何使用开始和停止索引检查这3个字符串是否位于同一个句子中。
我试图打印由 BreakIterator 拆分的句子
BreakIterator i=BreakIterator.getSentenceInstance(Locale.US);
i.setText(text);//HTML page text
for(int s=i.first(), e=i.next(); e>=0; s=e, e=i.next())
{
System.out.println("Sentence: from "+s+" to "+e+" \""+text.substring(s, e)+'"');
}
它以下列方式打印所有 HTML 行
Sentence: from 0 to 2 "<!"
Sentence: from 2 to 15 "DOCTYPE html>"
Sentence: from 0 to 46 "<html lang="en" dir="ltr" class="client-nojs">"
Sentence: from 0 to 6 "<head>"
**Sentence: from 0 to 95 "<dd><a href="/wiki/Barack_Obama" title="BarackObama">Barack Obama</a> born August 4, 1961</dd>"**
Sentence: from 0 to 5 "</dl>"
Sentence: from 0 to 5 "</dd>"