3

虽然我在使用 MALLET 进行主题建模时添加了额外的停用词列表和默认停用词列表,但主题模型中出现了一些停用词。例如“ın”、“ıf”、“ıt”。如何确保此停用词不出现在主题模型中?主题模型如下。

0 5 ıt 时间 房间 门 房子 人 眼睛 事情 晚上 女人 一天 让 女孩 面对 母亲 声音 汽车 回家

1 5 ıt ın fact sense point experience order form 人类行为 共同的一般宗教法律部分更改编号 案例证据

2 5 时间地点工作水长切割 ın 方形大顶房屋侧建机器建筑粘土片设计

3 5 学校人 ın 发展 国民 美国 成员 社会 计划 系统 经济 团体 问题 教育 班 学生 工作 政策 儿童

4 5 年纽约周家庭音乐美国城市之家总统走读学校俱乐部威廉秀白日家庭之夜

5 5 it 时间火脚河长路边英里游戏陆地跑打战争枪大球开始武器

6 5 手 水 白色 手 ın 黑色 食物 眼睛 脸 慢慢 太阳 冷 ıt 生活 红头 热 长 身体

7 5 ın 数字系统数据表面温度高低类型体积信息材料压力进给形式小结果显示方法

8 5 世界生活教会神战争时间伟大的死亡书英语 ın 世纪历史英国法语西苏维埃爱情精神

9 5 州年联合政府一般商业联邦部门法院税收成本百万公司秘书法案公共 ın 服务业

谢谢你的建议

4

1 回答 1

1

检查停用词的拼写。Mallet 默认小写你的语料库,但它不会小写你的停用词!

还要检查停用词文件的格式:Mallet 预计它是每行一个单词。

并且不要忘记--stoplist-file yourstopwordfile.txtcommand的选项mallet import-dir

编辑:当心输入文件中的 OCR 错误:我看到在主题中,像“ın”这样的词用无点 i拼写(如土耳其正字法中使用的那样),而不是通常的带点 i。因此,要么在主题建模之前应用一些 OCR 校正,要么使用无点 i 附加停用词来制作拼写错误的 ın。

EDIT2:dotless-i“ın”、“ıf”、“ıt”还有另一个可能的来源:Mallet 将语料库中的所有单词都小写。当您的语言环境设置为土耳其语时,Java 会将大写字母 I 小写为无点 i。检查您的 JAVA 语言设置并从头开始再次创建主题模型。

于 2015-06-02T15:04:41.253 回答