我们想为我们公司生产的产品的文档建立一个字典,以创建一个固定的术语,因此我们想计算特定单词和短语的频率。
这可以通过几种不同的方式解决,但我们想要以某种方式解决的是编写一个 XSLT 算法,它可以识别短语,因为特定的单词经常一起出现(所以我们不必事先指定所有的短语和他们所有的版本都有不同的变位、词缀等)。
您认为,这个任务可以用 XSLT 完成,还是我们应该关注其他解决方案?
如果有人对我们应该如何开始有任何有用的建议,我将非常乐意听到您的想法并就此进行对话!
您正在寻找搭配,在算法术语中与Pointwise 互信息相关联。
在 XSLT 中,没有自然语言处理 (NLP) 框架,因此您必须发明一个。但是,有一些用于编程语言的 NLP 框架,例如 Python 的 NLTK。查看此示例以使用 Python 查找搭配。
使用以 Python 或 R 等流行数据挖掘语言编写的外部应用程序可能是最简单的方法。(您甚至可以将其插入到您的 DITA OT 处理中。)您还可以查看具有现有解决方案的供应商。我没有对此进行任何深入的搜索,但我已经看到诸如 Watson、Semaphore 甚至 XDocs 之类的系统从语言分析返回结果。