0

我正在寻找术语提取算法/服务。这只是给编辑的建议,因此提取的术语可能不完整。因此,我希望它将文本与可用术语列表进行比较,并且不建议此列表之外的术语。

这项任务似乎微不足道:对于每个术语,计算文本中出现的次数,过滤最热门的术语。但是这里我有一个几十万个术语的列表,这个任务看起来是不可能的。你知道做这件事的服务或算法吗?

另一个细节是,虽然我对术语提取服务非常满意(然后根据我的列表过滤这些术语),但这是非英语语言,大多数单词都是复合词,因此我不知道任何有用的服务。

谢谢。

编辑:一个例子

Hôm thứ Hai 31/1/2011, Ericsson cho biết đã trình diễn mạng HSPA(高速数据包接入)với tốc độ tải xuống lên đến 168 Mbit/giây, tốc độ lảâi.4 新加坡电信

168 mbit/giây,Ericsson ^sửdụngmộtsốthủ MIMO sử dụng nhiều anten tại trạm gốc và trên thiết bị để tăng tốc độ。

Theo Ericsson, cũng sẽ có một buổi trình diễn như vậy được tiến hành tại triển lãm Mobile World Congress sắp tới ở Barcelona (Tây Ban Nha)

建议列表可能是:Ericsson、trình diễn、HSPA、anten(等等)

4

1 回答 1

0

在第一轮中,您可以提取所有单个单词并查找其中哪些在您的列表中。通过二进制搜索,如果您的列表是有序的。

在第二轮中,您提取所有单词对(Hôm thứ、thứ Hai、Ericsson cho、cho biết)等,并在列表中查找这些术语。

等等

所有后面的步骤并不比第一步复杂得多:在第一步中,您将进行与文本中不同单词一样多的查找,在第二步中,您将查找的单词组合的数量可能更接近到文本中的总字数。但我仍然要说复合词确实不会使问题变得那么复杂。根据第一步中单词提取的结果,显着减少第二步的列表大小可能是可行的。

还是我想的太简单了?

于 2011-02-02T01:20:56.203 回答