我有一个 Solr 数据库快照。该数据库是已发布博客文章的存档(加上每篇文章的一堆元数据)。快照是数以万计的帖子。
我想在帖子上运行一些机器学习算法和主题建模。所以我本身不需要数据库,我只想以某种简单的形式获取帖子的原始文本和元数据。谁能告诉我如何在不实际安装 Solr 的情况下打开或提取该信息?
我有一个 Solr 数据库快照。该数据库是已发布博客文章的存档(加上每篇文章的一堆元数据)。快照是数以万计的帖子。
我想在帖子上运行一些机器学习算法和主题建模。所以我本身不需要数据库,我只想以某种简单的形式获取帖子的原始文本和元数据。谁能告诉我如何在不实际安装 Solr 的情况下打开或提取该信息?
当您的意思是 Solr 数据库快照时,我想您有 Solr 索引。
Solr 索引基本上是一个 lucene 索引,您可以使用Lucene api来读取索引并从字段中提取数据。
这不需要安装 Solr。