问题标签 [hunspell]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 使用 HunSpellChecker 类对 UTF-8 文本进行拼写检查
我正在尝试使用 HunSpellChecker 类拼写检查字符串(请参阅https://web.archive.org/web/20130311163032/http://www.phpkode.com/source/s/php-spell-checker/php- spell-checker/HunSpellChecker.class.php ) 和 hunspell 拼写引擎。相关函数复制到这里:
它适用于 ASCII 字符串,但我必须检查不同语言的字符串,这些字符串具有重音字符(necessário、segrança 等)或非拉丁字母(希腊语、阿拉伯语等)。
在这些情况下的问题是非 ASCII 单词被错误地分段,并且发送到 Hunspell 的“拼写错误”的单词实际上是一个子字符串而不是完整的单词(necess,segran)。
我试图跟踪问题发生的位置,并且我假设它必须在上面链接的类的第 072 行中,当字符串被转换为资源时(或之后的某个地方)。第 072 行包含:
fwrite($pipes[0], $text);
该课程没有评论,所以我不确定那里发生了什么。
有没有人处理过类似的问题,或者有人可以提供任何帮助吗?
该类包含在文件示例/HunspellBased.php 中(从http://titirit.users.phpclasses.org/package/5597-PHP-Check-spelling-of-text-and-get-fix-suggestions.html下载的包)。我尝试使用 Enchant,但我根本无法让它发挥作用。
谢谢!干杯,曼努埃尔
html - 在 Aptana Studio 中使用 Hunspell 检查 HTML?
我有带有 Hunspell Eclipse 插件(版本 0.8.7.201205281622)的 Aptana Studio 3(内部版本:3.4.3.201308090259)。在首选项中启用了拼写检查。拼写错误的单词在注释块和其他一些地方突出显示(我相信这是默认行为)。
但是,拼写错误的单词不会在 HTML 元素中突出显示。例如,未标记以下内容:
<p>拼写错误</p>
有没有办法打开对 HTML 元素的检查?我在 Aptana/Eclipse 首选项中找不到任何内容来指定检查哪些内容,哪些不检查。我不反对深入研究一些插件的配置文件来更改它,但我找不到合适的地方进行更改。
meteor - 流星友好的拼写检查器
有没有与 Meteor 配合得很好的拼写检查器?我正在寻找一些开源的东西,并且在纯粹的 JS 环境中合作。
machine-learning - 拼写检查器使用语言模型
我寻找可以使用语言模型的拼写检查器。
我知道有很多很好的拼写检查器,例如Hunspell,但是我认为它与上下文无关,所以它只是基于标记的拼写检查器。
例如,
I lick eating banana
因此,在基于标记的级别,根本没有拼写错误,所有单词都是正确的,但句子中没有任何意义。然而,“智能”拼写检查器会识别出“lick”实际上是正确书写的单词,但可能是作者的意思是“like”,然后句子中有含义。
我在特定领域有一堆正确书写的句子,我想训练“智能”拼写检查器来识别拼写错误并学习语言模型,这样即使认为“舔”写得正确,它也会识别出来,但是作者的意思“喜欢”。
我没有看到 Hunspell 有这样的功能,你能推荐任何其他的拼写检查器,可以这样做。
c# - 如何显示所有错误的单词
我在richTextBox1 中有一些文本。
我必须按单词的频率对单词进行排序并将它们显示在
richTextBox2
. 它似乎工作。必须找到所有错误的单词并将它们显示在
richTextBox4
. 我正在使用 Hunspell。显然我错过了一些东西。几乎所有单词都显示在richTextBox4
不仅错误的单词中。
代码:
r - 如何在 Windows 中安装 Aspell 包/库?
我想在 Windows 的 R 中安装 Aspell 包,但没有可用的 Aspell 包的二进制文件。
请建议一些方法。
以下是我尝试安装它时收到的消息。
c# - 如何创建自定义 NHunspell 字典?
我已经使用 NHunspell 及其英语词典制作了一个 C# windows 应用程序。
我需要的是另一个列出一些英语单词的列表来制作我的字典(不是所有的英语单词)。因此,如果我删除 .dic 文本文件中的所有单词并添加我的单词列表如下,它会正常工作吗?
compilation - 在 win 7 Ultimate 中使用 cygwin 编译 hunspell-1.3.2
我需要hunspell。我是 Windows 用户。我正在使用 win 7 终极英语。
操作系统名称 Microsoft Windows 7 Ultimate Version 6.1.7601 Service Pack 1 Build 7601 其他操作系统说明 不可用 操作系统制造商 Microsoft Corporation 系统名称 NURAS-PC 系统制造商 Sony Corporation 系统型号 VPCW21M1E 系统类型 基于 x64 的 PC 处理器 Intel(R) Atom(TM ) CPU N450 @ 1.66GHz, 1666 Mhz, 1 Core(s), 2 Logical Processor(s) BIOS 版本/日期 INSYDE R0240E2, 09 年 12 月 7 日 SMBIOS 版本 2.6 Windows 目录 C:\Windows 系统目录 C:\Windows\ system32 引导设备 \Device\HarddiskVolume1 语言环境美国硬件抽象层版本 = "6.1.7601.17514" 用户名 nuras-PC\nuras 时区土耳其夏令时 安装物理内存 (RAM) 2.00 GB 总物理内存 1.99 GB 可用物理内存 704 MB总虚拟内存 4.23 GB 可用虚拟内存 1。84 GB 页面文件空间 2.24 GB 页面文件 C:\pagefile.sys
昨天我安装了 Cygwin x86,所有用 hunspell 写的包都读了我。2、在Cygwin环境下编译制作gcc-g++开发包mingw开发包(用于cygwin.dll免费原生Windows编译)ncurses、readline(用于用户界面)iconv(字符转换)我选择了几乎所有的dev和util包我首先粘贴了我的“C:\cygwin\bin\cygwin1.dll”到“c:\Windows\system32\”第一次推送Cygwin控制台写了命令“mkdir dene”然后我添加了我下载的hunspell的windows路径我解压缩了两个使用 7zip 并复制粘贴到“dene”目录下,然后推送 Cygwin 控制台
nuras@nuras-PC ~ $ cd dene
nuras@nuras-PC ~/dene $ ls hunspell-1.3.2
我想我忘记了安装“readline 包”,我现在将尝试安装。
如果我编译成功,Cygwin 会将哪个目录放入 huspell 的可执行文件?如果有人给我一些帮助,我将不胜感激。谢谢你。艺术
regex - 正则表达式匹配多语言文本中的单词分隔符
我有一个文本框,用户可以输入任何语言的任何文本,我需要将该文本拆分为单词,以便我可以将这些单词传递给 hunspell 拼写检查。对于拆分,我使用匹配单词分隔符的正则表达式。
起初,我用作\W
单词分隔符将文本拆分为 wrod,但这仅适用于拉丁字母,例如英语。如果我使用非拉丁语言,它会将它的每个字母都视为\W
. 那是因为\W
被定义为任何字符,即[^a-zA-Z0-9_]
.
到目前为止,(?![-'])[\pP|\pZ|\pC]
似乎正确地标记了英语、西班牙语和俄语。它基本上说将所有标点符号(连字符和撇号除外)、所有分隔符和所有“其他”字符(控制、私人使用等)视为单词分隔符。我已经排除了连字符和撇号,因为它们通常不应该被视为单词分隔符。
我没有对它进行太多测试,今天才想出它,所以我认为询问是否有人知道任何更适合匹配多语言文本中的单词分隔符的正则表达式是明智的。
请注意,我不关心无法标记化的语言,例如日语、中文、泰语等。
更新:由于人们问我使用的是什么语言(尽管它可能无关紧要),我正在使用 C++ 和 Qt5 的QRegularExpression类。
python - 使用 *.dic *.aff 的 Python 形态文本分析
我有 2 个用于乌克兰语的 hunspell 格式(.dic 和 .aff)的文件。我的程序必须获得输入单词的基本形式。因此,它可以使用 .dic 文件中的单词形式和 .aff 文件中的 affices。即使使用 Hunspell util,我也不知道如何实现这一点,但假设它是可能的。
哪些 python 库可以使用 .dic 和 .aff 文件获取单词的基本形式?