假设我们有一个包含若干事物描述的列表。描述由逗号分隔的单词组成。让我们以下面的列表为例(每一行都是一个单独的描述):
white, leather, round
black, plastic, rectangular
wood, rectangular, brown
...
我们希望将它们解析为以下结构:(颜色、材质、形状)
前两个描述可以直接映射到我们的结构中。但是第三个就不行了。因为值的顺序不同:材料、形状、颜色。
所以实际的问题是:我们如何检测这些不规则条目并解析它们?
我想我们必须以某种方式检测每个单词描述的部分。但我什至不知道从哪里以及如何开始。我也非常感谢任何提示、算法和论文(关于相关算法)。
编辑:抱歉忘了提到没有已知和固定的词汇。在不同的类别中可能有相同的词。但可能我认为我错过的最重要的事情是:大多数条目都是常规的。所以我想我们可以用它来增长字典。