OpenCalais 系统给我留下了深刻的印象。它是(是/拥有)一个网络服务,您可以在其中发送文本,他们对其进行分析,然后为您提供文档所属的一系列分类(启用 RDF)标签。
但是 - 目前 - 英语是唯一支持的语言。
您知道处理多语言文档的类似系统吗?(我对意大利语很感兴趣,但多语言当然是加分项)
OpenCalais 系统给我留下了深刻的印象。它是(是/拥有)一个网络服务,您可以在其中发送文本,他们对其进行分析,然后为您提供文档所属的一系列分类(启用 RDF)标签。
但是 - 目前 - 英语是唯一支持的语言。
您知道处理多语言文档的类似系统吗?(我对意大利语很感兴趣,但多语言当然是加分项)
Apache Stanbol可以分析许多不同语言的文本。到目前为止,支持以下语言(精度和召回值可能因语言而异):
分析将返回发现的实体。分析输出格式可以是:
可以根据系统配置进一步定制文本的实体或标记。理想情况下,任何自定义词汇都可以插入系统。
有几个演示端点:
不确定上述端点是否支持所有上述语言。
RedLink GmbH将提供基于 Apache Stanbol 和相关软件的云服务。
WordPress的WordLift 插件已经在 WordPress 中为所有上述语言提供了文本分析(目前处于测试阶段)。您可以尝试在 WordPress 中安装插件并在帖子正文中提交文本内容。
您还可以订阅并写入Apache Stanbol 邮件列表以获取特定请求或信息。
OpenCalais 支持实体的法语和西班牙语元数据标记。这组实体将在未来的版本中扩展。请参阅我们在http://www.opencalais.com/documentation/calais-web-service-api上的在线文档