1

我已经使用 BeautifulSoup 抓取了一个网站,现在我想分析我抓取的所有文本,并创建一个长长的列表,其中包含该文本中出现的食物项目。

示例文本

如果你是一个素食主义者,并且永远为你不能吃馄饨而感到遗憾,那么这些人就是为你准备的!馅料是用简单的硬豆腐碎混合而成,用盐、生姜、白胡椒和大葱调味。它超级简单,但非常令人满意。确保你把豆腐沥干,并尽可能地把它弄干,这样馅料就不会太湿。你甚至可以更进一步,给它一个压力:在盘子里铺上纸巾,在上面放一些纸巾,然后用另一个盘子把豆腐压下来。这些馄饨最好的一点是馅料是完全煮熟的,所以你可以通过品尝来调整调味料。只要确保馅料比你自己吃的咸一点。馄饨皮没有太多调味料。这些家伙一闪而过,因为你所做的只是煮馄饨皮。一旦你将它们放入沸水中并漂浮到顶部,你就可以走了。把他们扔进辣酱油醋汁里,你就在天堂!

我想从中创建一个长长的列表,其中标识: 馄饨、豆腐、醋、白胡椒、洋葱、盐

如果没有预先存在的食品清单,我不确定如何做到这一点。因此,任何建议都会很棒。寻找可以自动执行此操作而无需太多人工干预的东西!(我对 NLP 和深度学习很陌生,所以你推荐的任何文章/方法都会非常有用!)

谢谢!

4

1 回答 1

1

如果您是该领域的新手,您可以使用 GENSIM,一个用于主题建模的免费 Python 库。您可以使用潜在语义分析或相似性查询来提取食物。

https://radimrehurek.com/gensim/index.html
于 2019-02-18T19:54:18.457 回答