-3

我正在使用美国农业部营养数据库,其食物有以下描述:

例如:

Cheese, fontina
Cheese, cheddar
Cheese, cottage, lowfat, 2% milkfat
Cheese, cottage, lowfat, 1% milkfat
Apples, raw, with skin
Apples, dried, sulfured, uncooked
Apples, frozen, unsweetened, heated
McDONALD'S, BIG MAC (without Big Mac Sauce)
McDONALD'S, BIG MAC
Sandwiches and burgers, roast beef sandwich with cheese

这里有一个模式,逗号显然用于分隔实体。按照上面的例子,cheese 是 cheddar、cottage 和 fontina 的父代。

为了从这个来源中提取信息,我已经做了一些工作。我认为:

  • 词性标注:如果一个词是形容词或动词,则不是食物名称的一部分
  • freqdist/wordcount:这样做是为了获得食物描述中的单词层次结构

但是当我大规模运行它时,我会得到不准确的结果。POS 标记在某些描述中失败,并且当同一个句子中存在具有相似频率的单词时,freqdist/wordcount 没有用。

这是我想要得到的结果的一个例子:

输入数据:

Cheese, fontina
Cheese, cheddar
Cheese, cottage, lowfat, 2% milkfat
Cheese, cottage, lowfat, 1% milkfat

输出数据:

Cheese is the parent of fontina, cottage and cheddar. lowfat is a "characteristic" cheese cottage. Cottage, cheddar and fontina are the "principal foods".

输入数据:

Sandwiches and burgers, roast beef sandwich with cheese

输出数据:

Cheese is a characteristic of roast beef sandwich. The category of the food is    sandwiches and burgers and the "principal food" is roast beef sandwich. 

我是初学者,所以我想得到一些关于它的指导。关于 NLP 的信息很多,如果没有对该主题的广泛了解,很难确定该走哪条路。

4

1 回答 1

0

这不是一个真正的 NLP 问题......

数据是一棵树。将每条线视为树形图中的部分路径。第二个逗号之后的单词似乎是叶子的值。

于 2013-04-26T23:57:03.777 回答