0

我有一连串的广告,这些广告是从一些报纸中提取的。广告可能以如下所示的格式出现:我的任务是提取死者的姓名。

John, the small son of Mr. and Mrs.<br>
Elmer Cleppfer, died at their home in<br>
Lewistown on Wednesday. The funeral<br>
will He held on Saturday afternoon<br>
from the home of the grandparents<br>
on the child, Mr. and Mrs. John<br>
Kiopper, 224 Locust street, tortiorrow<br>
afternoon at 2 o'clock. Interment witt<br>
take place at Oberlin.<br>

Mrs. Lydia Mintch, aged 6S years <br>
died yesterday afternoon at the home<br>
of Fred Flowerfleld at Enhaut. Mrs.<br>
Mlnlch contracted a severe attack of<br>
pneumonia aggravated by other illness<br>
Several days ago which resulted in her<br>
death. Funeral arrangements have not<br>
yet been completed.<br>

整个段落由2个广告组成。如果有超过1个这样的广告,谁能告诉我如何将这种文本分类为段落?

4

2 回答 2

0

这是我将如何解决这个问题。

  1. 获取带有 POS 标记的句子。
  2. 对于每个句子,深度解析并创建主谓宾模型。(从左到右解析)。
  3. 凡是动词指向死亡的地方,主语都是死者。
于 2013-10-12T21:20:41.870 回答
0

好吧,斯坦福解析器是您的选择。

  1. 首先只提取包含死亡、减少或这些术语的句子。
  2. 使用 Stanford Parser 为这些句子生成折叠的类型依赖项。
  3. 你会找到一个模式,这将帮助你得到减少的人的名字。

我故意不在这里放弃模式,因为你也应该努力。

于 2013-10-09T17:54:26.323 回答