1

当需要文本分析时,是否可以将文本数据存储在图形节点中?

我有一个应用程序涉及通过主题、作者、参考文献等相互关联的数千个文档。我想存储文档之间的链接,但也能够使用文本分析技术分析文档的文本,文本分析也将需要分析所有节点上的文档文本以得出字数等。

目前,我已经研究了一些选项,试图达到最佳/最实用:

  1. 使用带有桥接表的关系数据库技术来管理关系信息(缺点:SQL 查询“遍历”关系会很困难)
  2. 使用图数据库技术来存储关系和文档信息(缺点:图数据库不是文本存储和检索的最佳选择,担心尝试跨所有节点运行全文分析会很慢并且难以与文本分析框架一起使用),
  3. 使用图形数据库存储关系,使用另一个如 CouchDB 存储文档信息(缺点:管理两个存储并使它们保持同步),
  4. 仅使用图形数据库来存储关系并将文档存储在磁盘或 HDFS 等中以进行分析。
  5. 其他?

任何人都可以建议其中一种或其他是否是实施的最佳方法吗?

谢谢,

保罗

4

1 回答 1

1

Neo4js 默认索引提供程序(Lucene)可以做一些文本分析。如果这还不够,那么 3 或 4 可能是最好的。

http://lucene.apache.org/

于 2013-05-30T12:01:13.013 回答