好的,所以我有一个充满文本(只有文本)的 docx 文件,我想以一种非常具体的方式解析它。请记住,它使用了来自塞尔维亚拉丁语的特殊字符,例如 ŠĐŽĆČ
这就是我想要做的:1)从文本中提取每个单词,忽略 1 个字母的单词 2)如果它用特殊字符(例如Čovek)编码,则制作两个版本,一个是“Čovek”,另一个是“Covek” "(所以一个有特殊字符,一个没有) 3) 将两者保存在相应列下的表格中(由单词的第一个字母确定,因此 C 表示 Covek,Č 表示 Čovek。这只是在他们还没有的情况下存在,如果他们跳过
而已。文件存在,表结构存在,我只是不知道如何解析它们。
谢谢!