-3

我有不同的文本,我需要捕获名称和数字。

这是我需要处理的一些示例文本:

1. 权利要求 1-3、9-12 和 18 根据 35 USC 103(a) 被驳回,因为对 Olarig 等人不具有专利性。(美国专利号 5,944,809)(“Olarig”)和 Solomita(美国专利号 7,581,052)。

2. 根据 35 USC 103(a) 的规定,权利要求 16 被驳回,因为在 US-2005/0013154 Honda 等人的基础上不具有专利性,并且进一步鉴于 US-2003/0189860 Takeuchi 等人,并进一步鉴于 US6883060 Hayama,并且进一步考虑到US-2004/0088473 Ogle。

我需要按照它们在文本中出现的顺序来捕获名称和编号。

对于 1,列表应为:

list1 = [{'name':'Olarig et al','patent no':'5944809'},
         {'name':'Solomita','patent no':'7581052'}]

对于 2,捕获的列表应为:

list2 = [{'name':'Honda et al', 'patent no':'20050013154'},
         {'name':'Takeuchi et al', 'patent no':'6883060'},
         {'name':'Ogla' , 'patent no':'20040088473'}]

从文本中获取列表需要哪些步骤?

4

1 回答 1

3

这是一个实体识别问题。我可能会首先为您想要识别的每个实体制作单独的解析器并从那里开始工作。

例如:制作“专利”标识符,从您的示例看来,您必须识别——忽略大小写——“专利号 xxxxxxx”或“USxxxxxxx”,可能还有更多格式。您将需要为这些创建正则表达式,或训练分类器来识别它们(更难但可能更准确)。我个人建议从每个实体的正则表达式解析器开始,然后继续测试直到您满意!

于 2013-11-13T16:30:47.787 回答