text - 关于“自动文本摘要器（基于语言）”

Question

我将“自动文本摘要（语言方法）”作为我最后一年的项目。我已经收集了足够多的研究论文并浏览了它们。我仍然不太清楚“如何去做”的事情。基本上我找到了“AUTOMATIC TEXT SummariZER (statistical based)”，发现它比我的项目要容易得多。我的项目指南告诉我不要选择这个（基于统计的）并选择基于语言的。

任何曾经从事过甚至听说过此类项目的人都会知道，总结任何文档仅意味着对每个句子进行评分（通过某种涉及某些特定算法的方法），然后选择得分超过阈值分数的句子。现在这个项目最困难的部分是选择合适的算法进行评分，然后再实施。

我有中等的编程技能，并且想用 JAVA 编写代码（因为在那里我会得到很多 API，从而减少开销）。现在我想知道对于我的项目，我应该使用什么方法和算法。还有如何实现它们。

score 5 · Accepted Answer

使用词法链进行文本摘要（微软研究院）

不同算法的分析：DasMartins.2007

文档中最重要的部分：

• Nenkova (2005) 分析说，没有任何系统可以超过具有统计学意义的基线。
• 惊人的结果！

请注意，语言方法有两个不同的细微差别：

语言评分系统（这里都清楚）
语言生成（重写句子以构建摘要）

score 2 · Accepted Answer

自动总结是一个相当复杂的领域——首先尝试获得你的 Java 技能，以及你对使用机器学习的统计 NLP 的理解。然后，您可以通过构建一些实质性的东西来工作。评估您的解决方案并确保您已经具体定义了您的测量变量以及您如何进行评估。否则，你的项目注定要失败。对于最后一年的本科生来说，这通常被认为是一个高风险的项目，因为他们往往无法正确掌握原则，然后以一种不正确的方式实施，然后他们的评估措施都没有明确定义，没有反思自己的工作清楚。我的建议是专注于一个领域而不是多个领域的摘要，因为您可以拥有单文档和多文档摘要。你的项目越多样化，你获得好成绩的可能性就越小。保持重点和深入。评估其他人的工作，然后评估您决定采取的过程和结果。

阅读材料： -Jurafsky 关于 NLP 的书，后面有关于总结和 QA 的部分。- inderjeet mani 在文本摘要方面的进步非常好

了解术语权重、基于质心的摘要、对数似然比、连贯关系、句子简化、最大边际相关性、冗余以及重点摘要实际上是什么。

您可以使用有监督或无监督方法以及混合方法进行尝试。语言是一种更安全的选择，这就是为什么建议您采用这种方法的原因。尝试在语言上进行尝试，然后建立统计数据以混合您的解决方案。将其作为练习来学习算法的理论和实际意义，并建立在您的知识基础上。因为毫无疑问，您必须向评审团解释和捍卫您的项目。

score 0 · Accepted Answer

如果你真的读过那些研究论文和研究书籍，你可能知道什么是已知的。现在由您在 Java 应用程序中实现这些研究论文和研究书籍的知识。或者你可以通过一些创新/发明来扩展人类知识。如果你确实扩展了人类知识，你就成为了一名真正的科学家。

score 0 · Accepted Answer

请在以下两个主要方面使您的问题更具体：

项目定义：你的项目的目标是什么？输入单元是单个文档吗？文件清单？你打算让你的程序使用机器学习吗？输出是什么？你将如何衡量成功？
你的背景知识：你打算使用语言而不是统计方法。你有解析自然语言的背景吗？在语义表示中？我认为其中一些问题很棘手。我问他们是因为我在学习过程中花了太多时间试图回答类似的问题。一旦你把这些整理好，我也许能给你一些指示。Mani 的“自动摘要”看起来是一个好的开始，至少是介绍性章节。

score 0 · Accepted Answer

几年前，作为欧盟 FASiL 项目的一部分，谢菲尔德大学在自动电子邮件摘要方面做了一些工作。

text - 关于“自动文本摘要器（基于语言）”

5 回答 5

Related

Reference