我需要使用 lucene 测试全文索引和搜索,为此我正在寻找大量各种类型的文件(大约 15 Gb)(pdf、doc、txt、xml、json ......)。
我已经尝试过维基百科的数据库,但那些只给了我一个 xml 文件。
任何人都可以建议我在哪里找到这样的数据库?
我需要使用 lucene 测试全文索引和搜索,为此我正在寻找大量各种类型的文件(大约 15 Gb)(pdf、doc、txt、xml、json ......)。
我已经尝试过维基百科的数据库,但那些只给了我一个 xml 文件。
任何人都可以建议我在哪里找到这样的数据库?