8

我有一个数据集,在底层文本上具有多层注释,例如part-of-tags来自浅解析器的块名称实体以及来自各种 自然语言处理(NLP) 工具的其他注释。对于类似的句子The man went to the store,注释可能如下所示:

词 POS 块 NER
==== === ===== ========
DT NP 人     
人 NN NP 人
去了VBD副总裁 -
到 PP -
DT NP 位置
商店 NN NP 位置

我想使用 Lucene 为一堆带有此类注释的文档编制索引,然后跨不同层执行搜索。一个简单查询的示例是检索所有将Washington标记为person的文档。虽然我并不完全致力于这种表示法,但从语法上讲,最终用户可能会按如下方式输入查询:

查询Word=Washington,NER=Person

我还想做更复杂的查询,涉及跨不同层的注释顺序,例如,查找所有有单词标记的文档,然后是单词,arrived at然后是单词标记的location。这样的查询可能如下所示:

查询"NER=Person Word=arrived Word=at NER=Location"

用 Lucene 解决这个问题的好方法是什么?是否有索引和搜索包含结构化标记的文档字段?

有效载荷

一个建议是尝试使用 Lucene有效载荷。但是,我认为有效载荷只能用于调整文档的排名,而不是用于选择返回的文档。

后者很重要,因为对于某些用例,包含模式的文档数量确实是我想要的。

此外,仅检查与查询匹配的术语的有效负载。这意味着有效载荷甚至只能帮助第一个示例查询的排名Word=Washington,NER=Person因此我们只想确保该术语Washingonton被标记为Person. 但是,对于第二个示例查询, "NER=Person Word=arrived Word=at NER=Location"我需要检查未指定且因此不匹配的术语上的标签。

4

3 回答 3

2

也许实现您所要求的一种方法是在同一位置(即,Word、POS、Chunk、NER)索引每类注释,并为每个注释添加一个唯一字符串的前缀。不要为单词的前缀而烦恼。您将需要一个自定义分析器来保留前缀,但是您应该能够使用您想要的查询语法。

具体来说,我建议您在指定位置索引以下标记:

Position Word   POS      Chunk     NER
======== ====   ===      =====     ========
1        The    POS=DT   CHUNK=NP  NER=Person     
2        man    POS=NN   CHUNK=NP  NER=Person
3        went   POS=VBD  CHUNK=VP       -
4        to     POS=TO   CHUNK=PP       - 
5        the    POS=DT   CHUNK=NP  NER=Location
6        store  POS=NN   CHUNK=NP  NER=Location

要获取语义,请使用SpanQuerySpanTermQuery来保留令牌序列。

我没有尝试过,但是在同一位置索引不同类别的术语应该允许位置敏感查询做正确的事情来评估表达式,例如

NER=人员到达 NER=位置

请注意与您的示例的区别:我删除了 Word= 前缀以将其视为默认值。此外,您选择的前缀语法(例如,“class=”)可能会限制您正在索引的文档的内容。确保文档不包含短语,或者在预处理中以某种方式对其进行转义。当然,这与您需要使用的分析器有关。

更新:我使用这种技术来索引文本中的句子和段落边界(使用break=senbreak=para标记),以便我可以决定在哪里打破短语查询匹配。似乎工作得很好。

于 2011-04-21T18:54:37.567 回答
1

您正在寻找的是有效载荷。Lucid Imagination 有一篇关于该主题的详细博客文章。有效负载允许您存储有关单个术语的元数据字节数组。使用包括在内的有效负载为数据编制索引后,您可以创建一个新的相似性机制,在评分时将您的有效负载考虑在内。

于 2010-05-21T14:56:09.053 回答
0

您确实可以使用SpanQuery在 Lucene 中搜索文本模式,并调整倾斜距离以限制查询词条之间可以出现的词条数量,甚至它们出现的顺序。

于 2010-05-22T07:18:07.950 回答