python - 在 NLTK 解析器中使用整数/日期作为终端

Question

我正在尝试使用 NLTK 中的 Earley 解析器来解析句子，例如：

如果日期在 2010 年 12 月 21 日之前，则序列号 = 10

为此，我正在尝试编写 CFG，但问题是我需要将日期和整数的通用格式作为终端，而不是特定值。有没有办法将生产规则的右侧指定为正则表达式，这将允许这种处理？

就像是：

S -> '[0-9]+'

它将处理所有整数。

score 2 · Accepted Answer

为此，您需要标记日期，以便每个数字和斜线都是单独的标记。

from nltk.parse.earleychart import EarleyChartParser
import nltk

grammar = nltk.parse_cfg("""
DATE -> MONTH SEP DAY SEP YEAR
SEP -> "/"
MONTH -> DIGIT | DIGIT DIGIT
DAY -> DIGIT | DIGIT DIGIT
YEAR -> DIGIT DIGIT DIGIT DIGIT
DIGIT -> '1' | '2' | '3' | '4' | '5' | '6' | '7' | '8' | '9' | '0'
""")

parser = EarleyChartParser(grammar)
print parser.parse(["1", "/", "1", "0", "/", "1", "9", "8", "7"])

输出是：

(DATE
  (MONTH (DIGIT 1))
  (SEP /)
  (DAY (DIGIT 1) (DIGIT 0))
  (SEP /)
  (YEAR (DIGIT 1) (DIGIT 9) (DIGIT 8) (DIGIT 7)))

这也以允许日期和月份为个位数的形式提供了一些灵活性。

python - 在 NLTK 解析器中使用整数/日期作为终端

1 回答 1

Related

Reference