问题标签 [misspelling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pytorch - 使用 BERT 进行文本分类——如何处理拼写错误的单词
我不确定这是否是提交此类问题的最佳地点,也许 CrossValdation 会更好。
我正在研究一个文本多类分类问题。我基于在 PyTorch(huggingface 转换器库)中实现的 BERT 概念构建了一个模型。该模型表现得非常好,除非输入句子有 OCR 错误或拼写错误。
例如,如果输入是“NALIBU DRINK”,Bert 分词器会生成 ['na', '##lib', '##u', 'drink'] 并且模型的预测是完全错误的。另一方面,如果我纠正了第一个字符,所以我的输入是“MALIBU DRINK”,Bert 分词器会生成两个令牌 ['malibu', 'drink'],并且模型会以非常高的置信度做出正确的预测。
有什么方法可以增强 Bert tokenizer 以使其能够处理拼写错误的单词?
r - R:将同一条目的不同拼写合并为一个
我有一个按公司名称排序的数据集。有时名称拼写错误并显示为唯一条目:
事实上,这些条目是相同的两个公司名称的变体。这显然是我的初始数据集的一个问题,但我需要注意它以正确处理我的数据。
除了针对类似字典的数据结构测试单词的修改版本的长循环之外,我不知道如何解决这个问题。是否有用于拼写检查的库(甚至对公司名称有意义)?
我会很感激任何帮助,并且不喜欢任何包裹。谢谢你。
python - hunspell_spell 是什么意思
我正在研究文本分类并面临拼写错误的问题。我试图用 spacy_hunspell 解决它,但无法得到 hunspell_spell 属性的意义,因为它总是返回 None。
上面列出的代码返回:
一开始我认为这个属性返回的标记是否拼写错误。
有人知道属性 hunspell_spell 是什么意思吗?
如何使用 spacy_hunspell 检查该单词是否拼写错误(不符合形态规则)?
我认为我的实现并不理想。
上面列出的代码返回:
javascript - 我将“use strict”拼错为“use stricr”
这段代码给出了非常有意义的错误
但这不是为什么
请帮帮我,我是菜鸟
xml - 使用 Go 解析时如何检查输入 XML 中的错误?
我是 golang 的初学者,正在编写 XML 解析器。
我的目标是希望包括检查 xml 文件的格式是否正确,检查元素和属性是否缺少括号或拼写错误的单词。如果缺少括号或拼写错误的单词,代码可能会引发异常,通知用户更正错误。
让我们以一个 xml 文件的具体示例为例example.xml
:
使用标准的 Go 包"encoding/xml"
,定义结构和解析 XML 很简单,如下所示:
缺少括号等错误即
或拼写错误的属性/元素,例如
,这些错误是通过 XML 语法错误捕获的。
但是,可能会发生其他错误。例如,属性拼写错误的单词:
尽管这是有效的 XML 格式,但我想将此视为错误,因为(出于我的目的)这些是输入 XML 文件中的拼写错误,应该更正。
这将在没有任何错误的情况下被解析为以下内容:
我怎样才能捕捉到这些错误并抛出错误?
domain-driven-design - DDD 更正实体的身份
在 DDD 中,实体具有唯一标识它们的值,即标识。有时这个身份是由服务器生成的,有时是从另一个 BC 获得的,有时是由用户提供的,等等。假设我们在用户提供身份的场景中工作。
让我们假设有一个业务流程专门在纸上完成并且不会很快迁移到计算机,流程所有者决定了一个称为资源的事物的新名称。该名称始终遵循固定模式PROD-<today's date>-<short random string>
,并且始终在非常重要的团队成员之间进行验证。选择和验证的名称是PROD-2021-01-04-KAH14564YUDO
,最后一个字符是“O”(字母)而不是“0”(数字)。
假设操作员在系统中注册了这个新资源,提供了给定的身份,但错误地将最后一个字符拼成了零,可能是因为笔迹不好。实体被插入,其他一些实体通过其身份链接到它,然后有人检测到身份中的错误。现在应该怎么办?
我们知道 Entity 的身份应该是唯一且不可变的,但在这里似乎我们需要更正(并因此更改)它。引入代理身份来避免这种错误的插入问题是不正确的,因为由 PO 提供并由非常重要的团队成员验证的身份实际上是唯一的并且不能更改,它只是在管理系统中插入错误;此外,在业务中没有与资源相关的代理身份的概念。
这种情况下的错误在哪里?
python - 在 Python 中查找并突出显示文本文件中拼写错误的单词(客户端-服务器模型)
我是 StackOverflow 的新手。我试图完成一些关于 Python 中拼写错误单词的大学作业。但我坚持以下要求: -
我想将一个文本文件从客户端上传到服务器,其中包含一些拼写错误的单词。我一直在尝试使用读写选项,但无法获得所需的输出。服务器应该已经有一个常见拼写错误单词的词典,用于比较目的。
输入:- Hllo I m nw 到 Pyton 编码。需要一些帮助。
输出:- [Hllo] i [m] [nw] 到 [Pyton] 编码。[内德] 一些帮助。
有人可以帮助我应该用什么来完成这件事。
由于教授的限制,我还不能分享确切的代码。但我已经能够用 Open 和 find 语句解决问题。只是一个查询..是否可以使用其他命令来使用更少的命令。
r - r中的名称匹配和更正拼写错误
我有一个包含数百万行的巨大数据表,其中包含商品代码及其描述。我想为每个组分配一个类别(基于代码和描述的组合)。问题是描述以不同的方式拼写,我想将所有相似的名称转换为一个。这是一个说明性示例:
当然,在实际情况下,不可能遍历所有引用同一个单词的拼写并手动修复它们。有没有办法检测所有相似的单词并将它们转换为一个(正确的)拼写?
提前致谢
java - 特定词典中的文本匹配
大家好,我有一个 Android 应用程序项目(使用 Java),它使用手机摄像头读取文本并提取文本并将其放入 textview ......问题有时是算法在提取时拼错了一个或两个字母......所以我想要为我的应用程序将处理的每个项目提供诸如特定词典之类的内容......然后应用程序将提取的文本与词典中最接近的单词进行比较,并在另一个文本视图中显示最后正确的单词......请帮助...谢谢大家
solr - SOLR:要进行拼写检查/同义化的最小标记大小
我面临以下问题:在使用“ΚΩΣ”术语搜索期间,它开始创建组合,就好像用户拼错了搜索词一样:
我无法理解的是如何配置此逻辑(正如您在屏幕上看到的那样,它具有像“κωσ”这样的组合,与原始查询只有 1 个共同字符)。
我想将允许的术语更改的最大数量(如拼写检查中的 maxEdits 参数)设置为 1,这样它就不会返回意外结果。
我的问题是,当我将拼写检查参数作为“false”发送到 SOLR 时,结果不会改变(这让我认为它与 searchComponent 无关)。另一方面,有一个名为 SynonymGraphFilterFactory 的过滤器
这没有任何配置,如 maxEdits 允许的(通过 SOLR 文档搜索)。
关于如何缩短对原始术语的更改数量的任何想法?或者也许我错过了一些重要的东西