我正在考虑在我的相似性程序中放置一个停用词,然后是一个词干分析器(选择搬运工 1 或 2 取决于最容易实现的)
我想知道,因为我从文件中读取我的文本作为整行并将它们保存为一个长字符串,所以如果我有两个字符串 ex.
String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";
现在我得到了那些字符串
词干:我可以直接在它上面使用词干算法,将其保存为字符串,然后像在程序中实现词干分析器之前那样继续处理相似性,比如运行 one.stem(); 之类的事情?
停止词:这是怎么回事?哦,我只是使用;one.replaceall("I", ""); 还是有一些特定的方法可以用于这个过程?我想继续使用该字符串并获取一个字符串,然后再对其使用相似度算法来获取相似度。维基并没有说太多。
希望你能帮帮我!谢谢。
编辑:这是一个与学校相关的项目,我正在写一篇关于不同算法之间相似性的论文,所以我认为我不允许使用 lucene 或其他为我工作的库。另外,在开始使用 Lucene 和 co 等库之前,我想尝试了解它是如何工作的。希望不要太麻烦^^