我对识别任何给定的文本正文是否包含有效的、实际的单词或只是乱码的想法感兴趣。
我立即遇到的问题是它需要与语言无关,因为我们处理的数据是高度国际化的。这意味着要么是一种统计方法,要么是一种非常大的多语言哈希表方法。
多语言哈希表看起来很简单,但很笨重,而且可能很慢。(或者至少是速度和准确性之间的折衷。)
但是,在这种情况下,我并没有真正对我有用的统计方法的背景,并且非常感谢任何人的经验或意见或任何其他建议。
我对识别任何给定的文本正文是否包含有效的、实际的单词或只是乱码的想法感兴趣。
我立即遇到的问题是它需要与语言无关,因为我们处理的数据是高度国际化的。这意味着要么是一种统计方法,要么是一种非常大的多语言哈希表方法。
多语言哈希表看起来很简单,但很笨重,而且可能很慢。(或者至少是速度和准确性之间的折衷。)
但是,在这种情况下,我并没有真正对我有用的统计方法的背景,并且非常感谢任何人的经验或意见或任何其他建议。
您可以使用ngram分析将您的文本与示例文本进行比较。这可以在字符或单词上。
Google 的NGram Viewer可以帮助可视化我的意思。例如,如果我搜索“黑线鳕冰箱”,则不会出现任何事件(例如,这是乱码),而“堆栈溢出”则表明一旦计算机搜索,事件就会变得突出。
您知道或可以确定文档的语言吗?我不认为为单一语言加载字典并计算有效单词的百分比会非常缓慢或占用大量内存。
它需要有多准确?