14

我正在寻找一个现有的库来总结或解释内容(我的目标是博客文章)——对现有的自然语言处理库有任何经验吗?

我对多种语言持开放态度,所以我对能力和准确性更感兴趣。

4

4 回答 4

10

有人讨论了格罗克。现在作为 OpenCCG 支持,并且也将在 OpenNLP 中重新实现。

您可以在http://openccg.sourceforge.net/找到 OpenCCG 。我还建议在此处使用 Curran 和 Clark CCG 解析器:http: //svn.ask.it.usyd.edu.au/trac/candc/wiki

基本上,为了解释,你需要做的是写一些东西,首先解析博客文章的句子,提取这些文章的语义,然后搜索词汇空间,这将在组合上创建相同的语义意思,然后选择一个与当前句子不匹配的句子。这将需要很长时间,而且可能没有多大意义。不要忘记,为了做到这一点,您将需要近乎完美的照应分辨率和获取话语级别推论的能力。

如果您只是想制作没有机器可识别的重复内容的博客文章,您总是可以只使用主题和焦点转换以及 WordNet 同义词。肯定有一些网站曾经通过 AdWords 赚钱。

于 2008-10-10T22:30:11.207 回答
5

我认为他想通过自动解释该系统正在监控的博客来生成博客文章。

如果您可以将 2 到 10 篇相似但来自不同来源的博客文章组合在一起,然后自动进行转述的“真实”摘要(1 篇博客文章的大小),这将非常有趣。

它也可能对 Homeworks 非常有用。不幸的是,这并不容易做到。

我能看到的唯一方法就是能够将每个句子分解成“意义”,然后随机改变句子结构和一些保留意义的单词。

这些句子的意思是一样的:

  • 我讨厌这个人,他太笨了。
  • 这人太傻了,我讨厌他。
  • 我鄙视这个笨蛋。
  • 他很笨,我讨厌他。

编写一个程序将这些句子中的一个转换为其他句子并非易事,这些都是简单的句子,博客中的真实句子要复杂得多。

于 2008-10-09T14:25:52.773 回答
0

感谢这些链接。看起来 GROK 已经死了 - 但它可能仍然适用于我的目的。

还有2个链接:

Attempto Controlled English 是一个有趣的概念:因为它是看待问题的完全相反的方式。对于我正在尝试做的事情并不实用。

@mmattax 至于说几句话的建议-我不是要总结:否则那将是一个不错的柔道解决方案。我正在寻找实际总结用于其他评估目的的内容。

于 2008-09-01T04:24:05.117 回答
0

你进入了非常遥远的 AI 类型领域。我主要使用 Attempto Controlled English(参见: http ://attempto.ifi.uzh.ch/site/)在将文本转换为机器知识方面做了大量工作,它是一种自然语言(英语),完全可以由计算机处理成多种语言不同的本体,例如 OWLDL。

似乎那样我们会有点矫枉过正......

是否有理由不只取博客文章的前几句话,然后在摘要中附加一个椭圆?

于 2008-08-24T21:14:55.610 回答