问题如下:
我有一个摘要,通常在 20 到 50 个单词之间,我想将其与其他相对相似的摘要进行比较。摘要所指的一般类别和地理位置是已知的。
例如,如果来自同一地区的人们正在撰写关于建造房屋的文章,我希望能够列出这些摘要,并且在一定程度上确定他们实际上指的是建造房屋而不是建造车库或后院游泳池。
该数据集目前大约有 50 000 个文档,每天大约有 200 个文档的增长速度。
首选语言是 Python、PHP、C/C++、Haskell 或 Erlang,无论哪种语言都能完成工作。另外,如果您不介意,我想了解选择特定语言的原因。