2

OpenCalais 系统给我留下了深刻的印象。它是(是/拥有)一个网络服务,您可以在其中发送文本,他们对其进行分析,然后为您提供文档所属的一系列分类(启用 RDF)标签。

但是 - 目前 - 英语是唯一支持的语言。

您知道处理多语言文档的类似系统吗?(我对意大利语很感兴趣,但多语言当然是加分项)

4

2 回答 2

3

Apache Stanbol可以分析许多不同语言的文本。到目前为止,支持以下语言(精度和召回值可能因语言而异):

  • 英语,
  • English (中文),
  • 西班牙语(西班牙语),
  • Русский (俄语),
  • Português(葡萄牙语),
  • 德语(德语),
  • Italiano (意大利语) ,
  • 荷兰语(荷兰语),
  • 斯文斯卡语(瑞典语),
  • 丹斯克(丹麦),
  • العربية (阿拉伯语),
  • עברית(希伯来语),
  • 日本语(日语)。

分析将返回发现的实体。分析输出格式可以是:

  • JSON-LD,
  • RDF/XML,
  • RDF/JSON,
  • 海龟,
  • N-三元组。

可以根据系统配置进一步定制文本的实体或标记。理想情况下,任何自定义词汇都可以插入系统。

有几个演示端点:

不确定上述端点是否支持所有上述语言。

RedLink GmbH将提供基于 Apache Stanbol 和相关软件的云服务。

WordPress的WordLift 插件已经在 WordPress 中为所有上述语言提供了文本分析(目前处于测试阶段)。您可以尝试在 WordPress 中安装插件并在帖子正文中提交文本内容。

您还可以订阅并写入Apache Stanbol 邮件列表以获取特定请求或信息。

于 2013-03-27T09:50:12.800 回答
0

OpenCalais 支持实体的法语和西班牙语元数据标记。这组实体将在未来的版本中扩展。请参阅我们在http://www.opencalais.com/documentation/calais-web-service-api上的在线文档

于 2010-05-27T12:46:00.067 回答