我正在使用带有德语 ( de-DE
) 的 JLanguageTool 进行拼写检查,并注意到数字似乎被用作单词分隔符(就像空格一样?)。例如We8lt
,不报告为单个不正确的单词,而是报告为两个拼写错误(一个 forWe
和一个 for lt
)。或者例如bis8
根本不报告为错误。
示例调用(我将其用作 Java 库,但行为相同):
$ echo "Hallo We8lt bis8 Test" | java -jar languagetool-commandline.jar -l de-DE -
Expected text language: German (Germany)
Working on STDIN...
1.) Line 1, column 7, Rule ID: GERMAN_SPELLER_RULE prio=-3
Message: Möglicher Tippfehler gefunden.
Suggestion: WE; Der; Den; Des; Dem
Hallo We8lt bis8 Test
^^
2.) Line 1, column 10, Rule ID: GERMAN_SPELLER_RULE prio=-3
Message: Möglicher Tippfehler gefunden.
Suggestion: LT; als; lag; alt; elf
Hallo We8lt bis8 Test
^^
Time: 1618ms for 1 sentences (0.6 sentences/sec)
这是一个大问题,例如找不到单词和数字之间的空格。如何让库/工具不将数字视为单词分隔符?非常感谢。