我有一个术语和短语数据库。
如果这些术语/短语存在于文本中,它会说明它与什么相关。它可以通过 2 个在线可用的 api 来完成
http://developer.yahoo.com/search/content/V1/termExtraction.html
http://developer.zemanta.com/
但结果不是我想要的。
我可以直观地看到它可以以非常精细的方式完成(不是资源密集型)
这是我的问题。我不知道如何快速做到这一点,并且资源压力非常低(CPU 和内存)
术语/短语以百万计,文本字符串也是如此。PHP 是我唯一熟悉的语言。感谢您的建议。
问问题
146 次
1 回答
0
您可以使用 lucene 从文档中提取术语并将它们与您的数据库相匹配。据我所知,lucene 有一个 PHP/Zend API/Port。
有一个类似的问题,如何在 java 中使用 lucene 执行此操作。这应该为您指明正确的方向:对小文本进行有效搜索
于 2011-04-30T21:44:07.900 回答