0

我对提取和构建有关餐厅菜单的信息很感兴趣。需要的是从表单中的菜单中提取项目category / name / price

例如,我们有以下网站。这里我们有一个饮料区,还有一些项目。对于那个网站,我希望能够提取

Drink / Cappuccino / € 1,50
SANDWICHES / filled sandwich, pistolet (round roll) or emperor roll / € 1,30
etc ...

当然,它不应仅限于本网站。

我能看到的唯一处理方法是应用一堆正则表达式,但我不相信列出所有可能的菜名是可行的。

我知道这个话题对于一个问题来说可能太宽泛了,但无论如何,任何对相关文章或书籍的建议或参考都将不胜感激。

4

1 回答 1

0

这似乎很有可能。您可能无法列出所有可能的菜肴,但您可以列出所有可能的类别

假设在每个菜单中,菜名跟在品类名之后,然后是价格,那么您可以识别菜名。

该算法将如下所示:

foreach(category: category_list):
    foreach(word:document):    
        if(category == word):
            dish = Read next(if data is structures with table read next row or col)
            price = Read next and check it format to see if its Currency or a price

关键是您需要分析不同的网站以了解信息的结构,并准备好您的算法以处理所有可能的结构。

于 2014-01-24T07:39:44.020 回答