我确实在 PostgreSQL 数据库中加载了 20.000 个文本文件,一行中的一个文件,全部存储在以docs
列doc_id
和doc_content
.
我知道大约有 8 种类型的文档。以下是我的问题:
- 我怎样才能找到这些组?
- 我可以使用一些相似性、差异性度量吗?
- PostgreSQL中是否有一些最长公共子字符串的实现?
- PostgreSQL 中是否有一些文本挖掘的扩展?(我只找到了Tsearch,但这似乎是在 2007 年最后一次更新)
我可能可以使用 some like '%%'
or SIMILAR TO
,但可能有更好的方法。