是否有任何可用的工具/库(最好是已建立/可靠的商业产品或开源)可以从纯文本中提取结构化数据?通常纯文本包含布尔或数学操作数,如(AND、OR、BETWEEN 等)。
我喜欢 AWS Comprehend,但我不确定它是否可以轻松用于此任务。
vehicle with 2 to 5 wheels
=>
SUBJECT: vehicle
EXPRESSION:
SUBJECT: wheels
OPERAND: BETWEEN
NUMBER: 2
NUMBER: 5
是否有任何可用的工具/库(最好是已建立/可靠的商业产品或开源)可以从纯文本中提取结构化数据?通常纯文本包含布尔或数学操作数,如(AND、OR、BETWEEN 等)。
我喜欢 AWS Comprehend,但我不确定它是否可以轻松用于此任务。
vehicle with 2 to 5 wheels
=>
SUBJECT: vehicle
EXPRESSION:
SUBJECT: wheels
OPERAND: BETWEEN
NUMBER: 2
NUMBER: 5
Comprehend 本身不支持将文本转换为结构化格式。但是,您可以使用 Syntax API 派生词性并从那里创建基于规则的结构。
https://docs.aws.amazon.com/comprehend/latest/dg/how-syntax.html
在上面的例子中,“vehicle”和“wheels”将被检测为名词,“2”和“5”将被检测为数字/值,“to”和“with”被检测为附加词。