1

我确实在 PostgreSQL 数据库中加载了 20.000 个文本文件,一行中的一个文件,全部存储在以docsdoc_iddoc_content.

我知道大约有 8 种类型的文档。以下是我的问题:

  • 我怎样才能找到这些组?
  • 我可以使用一些相似性、差异性度量吗?
  • PostgreSQL中是否有一些最长公共子字符串的实现?
  • PostgreSQL 中是否有一些文本挖掘的扩展?(我只找到了Tsearch,但这似乎是在 2007 年最后一次更新)

我可能可以使用 some like '%%'or SIMILAR TO,但可能有更好的方法。

4

2 回答 2

1

您应该使用全文搜索,它是 PostgreSQL 9.x 核心(又名 Tsearch2)的一部分。

对于某种最长公共子串的度量(或相似性,如果你愿意的话),你也许可以使用levenshtein()函数 -fuzzystrmatch扩展的一部分。

于 2013-04-04T08:13:45.997 回答
0
  1. 您可以使用聚类技术,例如 K-Means 或层次聚类。

  2. 是的,您可以使用文档之间的余弦相似度,查看二进制术语计数、术语计数、术语频率或 TF-IDF 频率。

  3. 我不知道那个。

  4. 不确定,但您可以使用 R 或 RapidMiner 对您的数据库进行数据挖掘。

于 2013-04-06T17:27:53.573 回答