1

我正在尝试将该命令--token-regex '[\p{L}\p{M}]+',与用于导入文本的常用命令一起使用,以便木槌可以读取德语文本。不显示错误消息并创建一个新文件。然而,它是可疑的小。然后,train-topics用于运行主题模型,显示以下错误消息:

3       5
4       5
5       5
6       5
7       5
8       5
9       5
Infinite value after topic 0 0
<350> LL/token: ´┐¢
Infinite value after topic 0 0
<360> LL/token: ´┐¢
Infinite value after topic 0 0
<370> LL/token: ´┐¢
Infinite value after topic 0 0
<380> LL/token: ´┐¢
Infinite value after topic 0 0
<390> LL/token: ´┐¢

我一直在尝试使用不同的令牌正则表达式命令解决这个问题几个小时,但似乎没有任何效果,任何帮助都会非常感激。

4

1 回答 1

-2

如果您使用的是 Windows,请尝试以下操作:

--token-regex "[\p{L}\p{M}]+"

UPD:您可以在此处找到有关“cmd.exe 中的单引号与双引号”的讨论:Windows 批处理文件中的单引号有何作用?

于 2015-03-26T08:47:19.117 回答