我正在对许多文档运行 xdmp:encoding-language-detect 并获得如下结果。这些肯定是英文的,比文档建议的“几百字节”大得多,以便进行良好的检测。
<encoding-language xmlns="xdmp:encoding-language-detect">
<encoding>utf-8</encoding>
<language>en</language>
<score>9.88</score>
</encoding-language>
<encoding-language xmlns="xdmp:encoding-language-detect">
<encoding>utf-8</encoding>
<language>el</language>
<score>10.24</score>
</encoding-language>
<encoding-language xmlns="xdmp:encoding-language-detect">
<encoding>utf-8</encoding>
<language>zu</language>
<score>17.55</score>
</encoding-language>
它检测三种语言:英语、希腊语和祖鲁语。以这个顺序,但随着分数的增加。
文档说:
10 分及以上的分数是高置信度建议。结果按分数递减的顺序给出。短文档的准确性可能很差。
所以我很困惑。我是否应该假设第一场比赛是最有可能的一场(尽管在这种情况下它的分数 < 10)?更高的分数不一定意味着更可靠的匹配吗?