嗨,全世界的每个人,
背景
我是计算机科学专业的最后一年学生。我提出了我的最终双模块项目,它是一个抄袭分析器,使用 Java 和 MySQL。
抄袭分析器将:
- 扫描上传文件的所有段落。分析从哪个网站复制的每个段落的百分比。
- 仅突出显示每个段落中完全从哪个网站复制的单词。
我的主要目标是开发像 Turnitin 这样的东西,如果可能的话会改进。
我有不到 6 个月的时间来开发这个程序。我已经确定了以下范围:
- 网络爬虫实现。可能会使用 Lucene API 或开发我自己的 Crawler(在时间开发和可用性方面哪个更好?)。
- 散列和索引。改进搜索和分析。
问题
以下是我的问题:
- MySQL可以存储那么多信息吗?
- 我错过了什么重要的话题吗?
- 你对这个项目有什么看法?
- 执行相似性分析的任何建议或技术?
- 可以散列段落以及单词吗?
提前感谢您的任何帮助和建议。^^