问题标签 [spelling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1127 浏览

word - 词建议

重复谷歌你的意思是算法如何工作

有谁知道如何编写像 Google 的“你的意思是”这样的单词建议功能吗?特征?或者知道我在哪里可以找到代码示例。

谢谢

0 投票
1 回答
262 浏览

visual-studio - 有什么好的源代码拼写检查器吗?

我经常在我的项目中输入拼写错误(谷歌已经正式毁掉了我的拼写)。有人知道 VS 的插件或通用拼写检查器,它将检查引号中的字符串值(双引号和单引号),最好是免费的?

0 投票
7 回答
1166 浏览

twitter - Twitter Trending Topics: Combine different spellings

Twitter's Trending Topics often consist of more than just one word. But for composed terms there are often different ways of spelling, e.g.:

"Half Blood Prince" / "Half-Blood Prince"

To find all updates mentioning a Trending Topic, you need all the ways of spelling. Twitter does this:

Twitter's Trending Topics Admin

You have the topic name on the left and the different ways of spellings on the right. Do you think this is done manually or automatically? Is it possible to do this automatically? If yes: How?

I hope you can help me. Thanks in advance!

0 投票
1 回答
964 浏览

fxcop - FxCop 对命名空间中的公司名称进行拼写检查

我正在尝试 FxCop(暂时通过 UI,不包含在 CruiseControl.NET 等中)并且遇到了一些问题。拼写检查器似乎不喜欢我客户的公司名称和产品名称,它要求我:

  • 我是否为此编写规则,如果是,如何?
  • 或者有没有办法添加到字典中?
  • 我还有一些荷兰语参数(它们绑定到 Sharepoint 参数中,ObjectDataSource所以他们需要保持荷兰语,因为客户想要那个),我可以以某种方式将荷兰语库添加到 FxCop 吗?

编辑

我找到了CustomDictionary.xml,但这被认为是最佳做法吗?如果更多的人加入团队,他们是否需要一本字典,还是转向持续集成更好?

0 投票
3 回答
1466 浏览

c# - ASP.NET 中的拼写建议器

我需要在 ASP.NET 中构建一个拼写建议器......以下是我的要求。

案例 1:我的单词列表不仅仅是英语单词,还包括一些代码,如 AACD、ESSA、BIMER 等……我可以从数据库中提供此类(新)单词。

案例 2:我还需要一个类似的非英语拼写建议器,即使在这里,我也可以提供来自数据库的单词列表。

现在,欢迎任何关于我如何实现它的建议。

此外,我从一个网站上找到了以下 Python 代码,该代码指出它返回了最可能的建议(当然是英文)。如果有人可以将其翻译成 C#,那将非常有帮助。

谢谢 - 拉贾

0 投票
2 回答
5870 浏览

regex - 生成适合指南的单词(只是为了好玩)

我有一些使用指南的测试。使用的 guid 不需要非常独特,它们只需要是 guid。随机向导很无聊 - 所以我试图找到有趣的向导词。现在,我没有比“00000000-feed-dada-iced-c0ffee000000”更好的了。理想情况下,我会生成一个动词、名词、介词列表。

在这个问题上只花了几分钟,这就是我的位置:

  1. 我有一个来自uzzlers.org 的单词列表(有点大)。
  2. 应用此正则表达式来识别可以在 Guid (o=0, i=1) 中使用的单词 ^[ABCDEFOI]{1,8}$
  3. 眯。

为什么没有人有一个有趣的 guid 生成器可供我立即满足?你会如何处理这个问题?欢迎任何有关如何改进此特殊指南生成过程的建议。

0 投票
2 回答
1944 浏览

java - 是否有 java API 来检索单词发音的声音?

大多数字典站点都提供了一种机制来听到单词的声音,是否有 API 允许您检索此声音文件。eSpindle似乎可以做到这一点,但我认为这不是免费的。

0 投票
1 回答
350 浏览

iphone - 如何进行“模糊字符串比较”以检查 iphone 应用程序中单词的拼写?

我想在我的 iphone 应用程序中实现一个拼写检查器,我想知道如何在输入的字符串和包含字典单词的 NSArray 之间进行“模糊字符串比较”并突出显示可能的更正?

是否有一个已经可以做到这一点的课程或有人可以推荐的图书馆?

谢谢!

0 投票
1 回答
622 浏览

open-source - 如何使用 aspell 或其他工具找到给定单词的常见拼写错误

对于给定的单词,我想找到 n 个最接近的拼写错误。我想知道像 aspell 这样的开源拼写检查器在这种情况下是否有用,除非您有其他建议。

例如:“健康”

会给我:健康,停止,健康,健康,......

0 投票
5 回答
8079 浏览

python - 真实世界的错字统计?

我在哪里可以找到一些真实世界的错字统计?

我试图将人们的输入文本与内部对象相匹配,而人们往往会犯拼写错误。
有2种错误:

  1. typos- “你好”而不是“你好”/“星期六”而不是“星期六”等。
  2. Spelling- “Shikago”而不是“Chicago”

我将 Damerau-Levenshtein 距离用于拼写错误,使用Double Metaphone进行拼写(此处此处的 Python 实现)。

我想专注于 Damerau-Levenshtein(或简单地说edit-distance)。教科书的实现总是使用“1”作为删除、插入替换和转置的权重。虽然这很简单并且允许使用很好的算法,但它与“现实”/“现实世界的概率”不匹配。

例子:

  • 我确信“Hello”(“Hello”)的可能性大于“Helzlo”,但它们都在 1 个编辑距离之外。
  • 在 QWERTY 键盘上,“Gello”比“Qello”更接近“Hello”。
  • Unicode 音译:“München”和“Munchen”之间的“真实”距离是多少?

删除、插入、替换和转座的“真实世界”权重应该是多少?

即使是Norvig 非常酷的拼写校正器也使用非加权编辑距离。

顺便说一句-我确定权重需要是函数而不是简单的浮点数(根据上面的示例)...

我可以调整算法,但我在哪里可以“学习”这些权重?我无权访问Google 规模的数据...

我应该猜他们吗?

编辑 - 试图回答用户问题:

  • 由于上述原因,我当前的非加权算法在遇到拼写错误时经常失败。“周四回归”:每个“真人”都可以轻松判断周四比周二更有可能,但他们都在 1 编辑距离之内!(是的,我会记录并衡量我的表现)。
  • 我正在开发一个 NLP 旅行搜索引擎,所以我的字典包含 ~25K 目的地(预计增长到 100K)、时间表达式 ~200(预计 1K)、人物表达式 ~100(预计 300)、金钱表达式 ~100(预计 500 )、“粘合逻辑词”(“from”、“beautiful”、“apartment”)~2K(预计10K)等等……
  • 对于上述每个词组,编辑距离的使用是不同的。我尝试“在明显时自动更正”,例如与字典中仅 1 个其他单词相距 1 个编辑距离。我还有许多其他手动调整的规则,例如 Double Metaphone 修复,它与长度 > 4 的字典单词的编辑距离不超过 2...随着我从现实世界的输入中学习,规则列表继续增长。
  • “你的阈值内有多少对字典条目?”:嗯,这取决于“花式加权系统”和现实世界(未来)的输入,不是吗?无论如何,我进行了大量的单元测试,因此我对系统所做的每一次更改都只会让它变得更好(当然,基于过去的输入)。大多数低于 6 个字母的单词与一个单词的编辑距离在 1 个编辑距离之内,而该单词与另一个字典条目的编辑距离为 1 个编辑距离。
  • 今天,当有 2 个字典条目与输入的距离相同时,我尝试应用各种统计数据来更好地猜测用户的意思(例如,法国巴黎比伊朗巴黎更可能出现在我的搜索中)。
  • 选择错误单词的代价是向最终用户返回半随机(通常是荒谬的)结果,并可能失去客户。不理解的成本略低:将要求用户重新措辞。
  • 复杂性的代价值得吗?是的,我敢肯定。您不会相信人们向系统抛出的拼写错误数量并期望它能够理解,而且我肯定可以使用Precision 和 Recall的提升。