我有一个 HTML 文档、一个常见拼写错误列表以及每种情况的正确拼写。HTML 文档将多达约 50 页,并且有约 30K 拼写更正条目。
纠正此 HTML 文档中所有拼写错误的有效方法是什么?
(注意:我的实现将在 Python 中,以防您知道任何相关的库。)
我想到了两种可能的方法:
- 构建拼写数据的哈希表
- 从 HTML 中解析文本
- 按空格将文本拆分为标记
- 如果拼写哈希表中的标记替换为更正
- 使用更新的文本构建新的 HTML 文档
这种方法对于多词拼写更正将失败,这将存在。以下是一种更简单但似乎效率较低的方法,适用于多词:
- 迭代拼写数据
- 在 HTML 文档中搜索单词
- 如果单词存在替换为更正