我正在做我的文本分类项目。我的信息检索项目有一个名为 Reuters-21578 的文本分类测试集合。它分布在 22 个文件中。前 21 个文件(reut2-000.sgm 到 reut2-020.sgm)中的每一个都包含 1000 个文档,而最后一个(reut2-021.sgm)包含 578 个文档。文件为 SGML 格式。22 个文件中的每一个都以文档类型声明行开头: DTD 文件 lewis.dtd 包含在分发中。在文档类型声明行之后是用 SGML 标签标记的单独的路透社文章。
我需要帮助来编写一个 java 程序来读取那些 21578 个文档或将它们转换为 21578 个分隔的文本文件。
有人可以帮我吗????