我正在尝试将该命令--token-regex '[\p{L}\p{M}]+',
与用于导入文本的常用命令一起使用,以便木槌可以读取德语文本。不显示错误消息并创建一个新文件。然而,它是可疑的小。然后,train-topics
用于运行主题模型,显示以下错误消息:
3 5
4 5
5 5
6 5
7 5
8 5
9 5
Infinite value after topic 0 0
<350> LL/token: ´┐¢
Infinite value after topic 0 0
<360> LL/token: ´┐¢
Infinite value after topic 0 0
<370> LL/token: ´┐¢
Infinite value after topic 0 0
<380> LL/token: ´┐¢
Infinite value after topic 0 0
<390> LL/token: ´┐¢
我一直在尝试使用不同的令牌正则表达式命令解决这个问题几个小时,但似乎没有任何效果,任何帮助都会非常感激。