我正在寻找术语提取算法/服务。这只是给编辑的建议,因此提取的术语可能不完整。因此,我希望它将文本与可用术语列表进行比较,并且不建议此列表之外的术语。
这项任务似乎微不足道:对于每个术语,计算文本中出现的次数,过滤最热门的术语。但是这里我有一个几十万个术语的列表,这个任务看起来是不可能的。你知道做这件事的服务或算法吗?
另一个细节是,虽然我对术语提取服务非常满意(然后根据我的列表过滤这些术语),但这是非英语语言,大多数单词都是复合词,因此我不知道任何有用的服务。
谢谢。
编辑:一个例子
Hôm thứ Hai 31/1/2011, Ericsson cho biết đã trình diễn mạng HSPA(高速数据包接入)với tốc độ tải xuống lên đến 168 Mbit/giây, tốc độ lảâi.4 新加坡电信
168 mbit/giây,Ericsson ^sửdụngmộtsốthủ MIMO sử dụng nhiều anten tại trạm gốc và trên thiết bị để tăng tốc độ。
Theo Ericsson, cũng sẽ có một buổi trình diễn như vậy được tiến hành tại triển lãm Mobile World Congress sắp tới ở Barcelona (Tây Ban Nha)
建议列表可能是:Ericsson、trình diễn、HSPA、anten(等等)