问题标签 [spelling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 将元素添加到 Marisa Trie 中
在拼写错误检测任务中,我将marisa_tries数据结构用于我的 Python 3.5 词典。
简短的问题
如何在 a 中添加元素marisa_trie
?
语境
这个想法是:如果一个词在我的词典中,那么它是正确的。现在,如果它不在我的词典中,那可能是不正确的。但是我计算了整个文档中单词的频率,如果一个单词频率足够高,我想保存这个单词,考虑到它足够频繁,所以可能是正确的。在那种情况下,如何将这个新词添加到我的marisa_trie.Trie
词典中?(不必每次都建立一个新的尝试)?
谢谢 :)
bash - 在 TeX 文档中将英国英语转换为美国拼写的 Bash 脚本/实用程序
我正在寻找一个快速的 Bash 脚本,用于在 TeX 文档中将英国/新西兰的拼写转换为美国的拼写(用于与美国学者和期刊提交合作)。这是一篇正式的数学生物学论文,几乎没有区域术语或语法:先前的工作以公式而不是引用的形式给出。
例如,
Generalise
->Generalize
Colour
->Color
Centre
->Centre
图必须有sed
或awk
基于脚本来替代大多数常见的拼写差异。
有关详细信息,请参阅相关的 TeX 论坛问题。
https://tex.stackexchange.com/questions/312138/converting-uk-to-us-spellings
nb 我目前在 Ubuntu 16.04 或 Elementary OS 0.3 Freya 上编译 PDFLaTeX,kile
但如果其他地方有内置修复程序,我可以使用另一个 TeX 编译器/包。
感谢你的协助。
python - 如何检查用户提交的域名中的拼写错误?
基本上,我正在尝试自动更正用户提交的电子邮件,其中的拼写错误只有几个字母。例如,如果用户不小心提交了 gamil.com 或 gmial.com 而不是 gmail.com,我想更正它。处理此任务的好方法是什么?
nlp - 拼写校正模型有哪些评估?
我一直在研究拼写校正模型,并试图找到一些评估指标。如果您认为假阴性试图修复一个已经正确的单词,而假阳性则缺少错误,那么您可以计算精度、召回率和准确性。然而,这些指标并没有说明更正模型的质量(无论它是否成功地将错误的单词更正成用户想要输入的内容),并且只评估拼写检查能力而不是更正能力。
python - 如何提高 PyEnchant 的拼写纠正性能?
考虑有一个很大的单词列表,并且必须对这个列表中的每个单词执行 PyEnchant 拼写更正。我使用自定义字典进行拼写更正,它会随着时间的推移而更新。如我所见,拼写纠正过程需要很长时间,是否有任何可行/最佳的解决方案来减少处理时间?
java - 如何优化搜索算法?
所以基本上我的意思是我如何制作一个有用的搜索工具(比如搜索一系列字符串,可能在数组或数组列表中等)?不一定很快,但很有用。
例如,在您搜索的术语产生拼写相似但不准确的结果时,合并“自动更正”有多容易?或匹配前 3 个字符但不匹配整个单词的结果,或者可能包含该单词但不一定包含整个单词的结果?是否有这个或一个类的API,或者有一个算法可以帮助我吗?
php - PHP中基于一组具有相似形式的字母的拼写纠正改进
我正在开发一个适用于 OCR 输出的非英语拼写校正系统。我使用非常大的字典来检查拼写错误并给出建议。
大多数拼写错误是因为字母形式相似。例如ـجـ
, ـچـ
, ـحـ
, ـخـ
or غ
, ع
and etc. 这些字母也存在于英语中,例如I
, l
and u
, v
, y
.
拼写检查系统为我们要检查的单词提供了一些建议。例如,如果我们输入voga
它会建议这些词:
volga
boga
yoga
toga
由于 的长度voga
是 4,那么我们将只保留 4 个字母的建议。现在因为 OCR 引擎可以检测v
为y
(因为它们的形式相似),我们将选择作为OCR 输出yoga
的最佳建议。voga
在我们的语言中,这种选择非常有效。例如,如果我们输入مدپر
,将建议这些词:
مدارا
مدار
مدیر
مراد
根据我们的集合(在本例中:ـبـ
, ـپـ
, ـیـ
and ز
, ر
, ژ
and ذ
, د
and مـ
, فـ
, قـ
)和单词的长度,مدیر
将是مدپر
.
我通常在 PHP 脚本语言中实现此功能的方式是保持建议的单词长度相同,然后通过替换所有集合(如مدپر
、فدپر
、قدپر
然后مذپر
、等)创建所有可能的拼写错误单词的组合فذپر
,قذپر
然后搜索对于建议列表中的相同单词。但是这种实现方法真的很慢(特别是在大型上下文中)并且几乎没有用。
在 PHP 中实现这种功能的最佳方法或算法是什么?
更新:
生成建议列表的引擎经过优化,通常在建议列表中包含正确的单词。问题是我的系统必须在没有任何人工智能的情况下选择其中一个建议作为正确的词。所以我认为这种方法在我的语言中很好,因为有很多字母具有相似的形式,这就是为什么 OCR 引擎通常会错误地检测单词。但如果有更好的方法,欢迎您提出建议。
excel - VBA中用户表单中的拼写检查
我想检查 VBA 用户表单中所有标签的拼写。
如果有人可以帮助我,我将不胜感激。
java - 有什么方法可以将自动更正添加到我的 Android 键盘?
我正在研究一个 Android 键盘,我试图看看是否有任何方法可以在其中添加自动更正。还是拼写检查器框架提供了自动更正功能?我在这里或我看过的任何其他地方都找不到明确的答案。
我的键盘代码可以在这里找到> https://github.com/MJonesDev/AndroidKeyboardPractice
python - 比较字符串以匹配品牌名称并消除拼写错误
我有一个包含品牌名称(可口可乐、百事可乐、7Up 等)的文本列表。我编写了一个 python 脚本,它对所有具有相同内容的单元格进行排序和计数(完全相同的文本,在所有文本小写之后),并根据每个文本的计数重新排序列表,以便出现最多的文本首先出现,因为我认为大多数人都会正确地写出品牌名称。例如,如果我有以下列表:
在第一步之后,列表将是:
在第二步中,我使用ngram包尝试匹配更接近的文本以纠正拼写错误。重要提示:我的主要要求之一是拥有一个与语言无关的解决方案。
我的问题是 NGRAM 在长文本上效果很好,但在短文本上效果很差。例如运行时:
结果将是:
这是一个非常低的“分数”,但正如您所见,字符串非常接近,只有 1 个字母放错了位置。
我可以做些什么来改善我的欲望?我需要使用不同的算法吗?或者也许为此测试指定不同的参数?我考虑过添加一个字典,其中包含我找到的所有“新”单词,添加它们,然后我可以将每个单词与之进行比较,但是我失去了脚本的粒度。