deep-learning - 我想开发一个总结用户输入文本的 Android 应用程序（可能是一篇新闻文章）

Question

我搜索了提取和抽象摘要方法。由于抽象摘要的许多缺点，我想做推理摘要。我希望能够使用监督学习方法进行推理摘要。在我对提取摘要的研究中，我总是遇到TextRank 算法，但这是一种无监督学习方法。我希望能够使用监督学习方法总结推理。可能吗？我可以在包含 15000 个数据的数据集上运行 TextRank（例如）吗？

下面给出的代码不应被考虑在内。不相关的代码共享问题。

word_embeddings = {}
f = open('/content/drive/MyDrive/MetinAnalizi/glove.6B.100d.txt', encoding='utf-8')
for line in f:
    values = line.split()
    word = values[0]
    coefs = np.asarray(values[1:], dtype='float32')
    word_embeddings[word] = coefs
f.close()
sim_mat = np.zeros([len(sentences), len(sentences)])
from sklearn.metrics.pairwise import cosine_similarity
for i in range(len(sentences)):
  for j in range(len(sentences)):
    if i != j:
      sim_mat[i][j] = cosine_similarity(sentence_vectors[i].reshape(1,100), sentence_vectors[j].reshape(1,100))[0,0]

score 0 · Accepted Answer

文本摘要方法种类繁多，自 2017 年底以来，深度学习在 NLP（又名语言模型、转换器等）中的使用带来了许多进步。

这里的一些权衡取决于质量与成本。例如，使用TextRank 的抽取式摘要相对便宜，并且不需要经过训练的模型。OTOH，使用带有 DL 模型的抽象摘要方法往往会更昂贵，但也会产生更好的结果。

就PyTextRank而言，我们实现了不同的算法变体，根据预期的用例产生不同类型的提取摘要。新闻文章摘要可能更喜欢使用PositionRank，而研究文章摘要可能更喜欢使用Biased TextRank。这是由于可能会强调的短语类型，具体取决于这些领域中遇到的典型写作风格和结构。

我的建议是进行试验，看看什么最适合您的需求？如果您有很多文章要总结并希望保持较低的预算，那么 TextRank 可能会很好用。如果您需要在摘要中更好地显示文本，则可能需要抽象摘要。

deep-learning - 我想开发一个总结用户输入文本的 Android 应用程序（可能是一篇新闻文章）

1 回答 1

Related

Reference