问题标签 [textrank]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
305 浏览

python - 使用 Spark 实现 TextRank 算法(使用 spark 计算余弦相似度矩阵)

我正在尝试实现 textrank 算法,我正在计算所有句子的余弦相似度矩阵。我想使用 Spark 并行化创建相似度矩阵的任务,但不知道如何实现它。代码如下:

这里,cluster_wise_sen 是一个字典,其中包含不同簇的句子列表({'cluster 1' : [list of sentence] ,...., 'cluster n' : [list of sentence]})。cluster_dict 包含句子的 100d 向量表示。我必须为每个集群计算句子相似度矩阵。由于它很耗时,因此希望使用 spark 将其并行化。

0 投票
1 回答
1808 浏览

python - PowerIterationFailedConvergence: (PowerIterationFailedConvergence(...), '幂迭代未能在 500 次迭代内收敛')

我正在尝试找出每个相似度矩阵的 textrank 分数。定义 Summarize 函数以产生摘要。并且该函数被调用用于句子列表的列表,result但是在使用PageRank算法对句子进行排名时会出现错误。我尝试通过手动更改max_iterPageRank函数中的值来调试它,错误仍然相同。

get_score 函数

它在汇总函数中调用。此函数内部出现错误。

Summarize 函数 获取原始文本并返回摘要

函数调用

大小result100,当我尝试它的第一个50句子列表时,result它工作正常。然后我做了一个系统,其中循环一次只总结50句子列表并继续直到达到大小,result但它仍然显示相同的错误。

错误

0 投票
1 回答
169 浏览

tm - R按组提取列中最常见的单词/ ngram

我希望为每个组(第一列)从“标题”列中提取主要关键字。

数据

“所需标题”列中的所需结果:

想要的

可重现的数据:

我已经研究过记录链接解决方案,但这主要是为了对完整标题进行分组。任何建议都会很棒。

0 投票
1 回答
102 浏览

python - 如何在 python 中连续运行语音识别时进行基本的文本处理

我目前正在使用 Microsoft Azure 从实时语音识别中获取转录文本。使用该转录文本,我将其放入 TextRank 以从该语音流中提取关键字。但是,当我运行它时,我在运行 TextRank 代码时会丢失很多语音识别。有没有办法在将转录结果传递给下一个过程的同时不断运行语音识别,同时处理TextRank关键字提取,这样我就不会丢失任何语音并提取关键字?

0 投票
1 回答
26 浏览

python-3.x - 有没有办法确定 k 的值以选择文本摘要中的前 k 个句子

我使用 TextRank 算法对一些文章的句子进行排名。文章中的句子总数从 10 到 71 不等。我想知道是否有任何方法可以确定 k 的值,以选择排名前 k 的句子作为摘要。还是固定为某个数字?

0 投票
1 回答
49 浏览

deep-learning - 我想开发一个总结用户输入文本的 Android 应用程序(可能是一篇新闻文章)

我搜索了提取和抽象摘要方法。由于抽象摘要的许多缺点,我想做推理摘要。我希望能够使用监督学习方法进行推理摘要。在我对提取摘要的研究中,我总是遇到TextRank 算法,但这是一种无监督学习方法。我希望能够使用监督学习方法总结推理。可能吗?我可以在包含 15000 个数据的数据集上运行 TextRank(例如)吗?

下面给出的代码不应被考虑在内。不相关的代码共享问题。

0 投票
0 回答
57 浏览

python - 文本排名在 0 和 1 之间归一化

我想调整此 Text Rank 代码以在我的文本中提取关键字,其值在 0 和 1 之间进行标准化。我展示了一个简短的片段:

我看到输出是类似的:

我想将Text Rank值标准化为 0 到 1 之间,以获得最大值。

在维基百科上,我在这里 文本排名公式找到了这两个公式 但是如果我添加(1-self.d)/g.shape[0]到前面的公式中,那么:

我仍然有一些高于 1 的值。有什么错误?

0 投票
0 回答
64 浏览

nlp - 如何绘制图表以查看使用 TextRank 算法进行汇总的相似度矩阵

我正在使用 TextRan 算法进行推理文本摘要。我使用 Glove 模型进行词嵌入。我写了一个可以绘制图形的代码,以显示相似度矩阵的方式。虽然每次运行代码都会得到相同的摘要文本,但每次都看到不同的图形绘制。这是什么原因?这是问题还是正常?如果这是一个问题,我该如何提供解决方案?如果您有信息,如果您回复,我将不胜感激。

在此处输入图像描述

0 投票
1 回答
38 浏览

python - 使用 pandas 块大小并行化数据帧操作

我有一个包含 350k 行和一列(名为“文本”)的数据框。

我想将此函数应用于我的数据集:

但是如果我运行它,它需要很长时间才能完成(将近 50 个小时)。

可以使用 chunksize 或其他方法来并行化数据帧操作,如何?

感谢您的时间!

0 投票
0 回答
47 浏览

nlp - 没有句子的“文档”中的文本摘要

我有一个约 100 个“文档”的非语言语料库,每个包含一个约 10k 个“单词”的序列(即我有一组约 100 个整数序列)。我可以学习尊重语料库中已知类的良好 doc2vec 嵌入。我现在有兴趣总结这些文档,以帮助解释哪些主题不仅代表每个文档,而且在类之间具有区分性。

我主要熟悉 TextRank 作为一种抽取式摘要方法,但这通常依赖于句子(即以句点结尾的子序列)作为底层节点排名算法的合理原子。就我而言,序列标记是事先不知道的,因为本身没有句子。

有没有考虑到这一点的总结方法?到目前为止,我已经尝试在所有 n-gram 上使用 TextRank 以获得固定的 n,但这排除了涉及不同长度标记的摘要,这在我的设置中恰好是至关重要的。例如,是否有任何多尺度汇总方法?