我正在使用 Gensim 的优秀库来计算使用 LSI 的语料库上的相似性查询。但是,我有一种明显的感觉,结果可能会更好,我正在尝试弄清楚我是否可以调整语料库本身以改善结果。
我对如何拆分文档有一定的控制权。我的原始数据有很多非常短的文档(文档中的平均长度是 12 个单词,但存在 1-2 个单词长的文档......),并且有几种逻辑方法可以将多个文档连接成一个。问题是我不知道这样做是否值得(如果值得,在多大程度上)。我找不到任何材料来解决这个问题,而只是关于语料库的大小和词汇量的大小。我认为这是因为归根结底,文档的大小受词汇量的限制。但我确信仍然有一些通用的指导方针可以帮助做出这个决定。
什么被认为是太短的文件?什么是太长了?(我假设后者是 的函数|V|
,但前者很容易成为一个常数值。)
这个事情谁有经验?谁能指出我解决这个问题的任何论文/博客文章/研究的方向?非常感激!
编辑添加: 关于对文档进行分组的策略 - 每个文档都是两方之间发送的文本消息。潜在的分组基于此,我还可以考虑发送消息的时间。意思是,我可以将 A 和 B 之间在某个小时内或某天发送的所有消息分组,或者只是将两者之间的所有消息分组。我还可以决定组合在一起的消息的最小或最大数量,但这正是我的问题所在 - 我怎么知道理想的长度是多少?