3

我正在为日语句子做词性和形态分析项目。每个句子都有自己的网页。为了使这个页面更直观,我想展示一张与句子相关的图片。例如,对于句子“私は学生です”(“我是学生”),相关图片将是学校图片、日语课本、学生等。我有:词性标注每个单词。我现在的方法:在每个句子中使用 2-3 个名词,并使用 Bing Images API 从搜索结果中检索第一张图片。注意:到目前为止,所有的句子处理都是在 Java 中完成的。


不过有几个问题:1) 什么更好(更丰富的语料库和强大的搜索)、Google 图片 API、Bing 图片 API、Flickr API 等用于搜索日语名词?2)如何从句子中选择最重要的名词进行图像搜索引擎中的查询,而不进行复杂的主题建模等?谢谢!

4

2 回答 2

1

日语 WordNet有指向OpenClipart图片的链接。这可能是另一个相关来源。他们在名为“Enhancing the Japanese WordNet”的论文中对其进行了描述。

于 2011-05-27T21:41:05.010 回答
0

我以为你会先选择 は、が 和 を 之前的任何名词并给予这些优先级 - 可能是按照这个顺序。

但这假设您的词性标记足以正确识别は=主题(我猜您知道 は 并不总是主题标记)。

我在这里查看了一堆带有这种技术的示例句子,发现它和预期的一样好。除非没有使用这些,这是罕见的。

像这样的句子,在没有を或は的情况下,你必须考虑在它之前寻找で和名词。因为如果你注意到这里,人(人)这个词实际上并没有告诉你关于正在说什么的任何事情。如果没有正确解析上下文,你甚至不知道这个名词是person还是people

毎年交通事故で多くの人が死にます (每年都有很多人死于交通事故)

但基本上,你不能实现这样的优先/后备类型系统吗?

顺便说一句,我希望你的句子都使用汉字,或者当你看到はし(在其中一个链接的句子中)时,你将不知道是显示桥还是筷子 - 显示错误的可能不会好。

于 2011-06-08T03:15:12.980 回答