问题标签 [textrank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 Spark 实现 TextRank 算法(使用 spark 计算余弦相似度矩阵)
我正在尝试实现 textrank 算法,我正在计算所有句子的余弦相似度矩阵。我想使用 Spark 并行化创建相似度矩阵的任务,但不知道如何实现它。代码如下:
这里,cluster_wise_sen 是一个字典,其中包含不同簇的句子列表({'cluster 1' : [list of sentence] ,...., 'cluster n' : [list of sentence]})。cluster_dict 包含句子的 100d 向量表示。我必须为每个集群计算句子相似度矩阵。由于它很耗时,因此希望使用 spark 将其并行化。
python - PowerIterationFailedConvergence: (PowerIterationFailedConvergence(...), '幂迭代未能在 500 次迭代内收敛')
我正在尝试找出每个相似度矩阵的 textrank 分数。定义 Summarize 函数以产生摘要。并且该函数被调用用于句子列表的列表,result
但是在使用PageRank算法对句子进行排名时会出现错误。我尝试通过手动更改max_iter
PageRank函数中的值来调试它,错误仍然相同。
get_score 函数
它在汇总函数中调用。此函数内部出现错误。
Summarize 函数 获取原始文本并返回摘要
函数调用
大小result
是100
,当我尝试它的第一个50
句子列表时,result
它工作正常。然后我做了一个系统,其中循环一次只总结50
句子列表并继续直到达到大小,result
但它仍然显示相同的错误。
错误
python - 如何在 python 中连续运行语音识别时进行基本的文本处理
我目前正在使用 Microsoft Azure 从实时语音识别中获取转录文本。使用该转录文本,我将其放入 TextRank 以从该语音流中提取关键字。但是,当我运行它时,我在运行 TextRank 代码时会丢失很多语音识别。有没有办法在将转录结果传递给下一个过程的同时不断运行语音识别,同时处理TextRank关键字提取,这样我就不会丢失任何语音并提取关键字?
python-3.x - 有没有办法确定 k 的值以选择文本摘要中的前 k 个句子
我使用 TextRank 算法对一些文章的句子进行排名。文章中的句子总数从 10 到 71 不等。我想知道是否有任何方法可以确定 k 的值,以选择排名前 k 的句子作为摘要。还是固定为某个数字?
deep-learning - 我想开发一个总结用户输入文本的 Android 应用程序(可能是一篇新闻文章)
我搜索了提取和抽象摘要方法。由于抽象摘要的许多缺点,我想做推理摘要。我希望能够使用监督学习方法进行推理摘要。在我对提取摘要的研究中,我总是遇到TextRank 算法,但这是一种无监督学习方法。我希望能够使用监督学习方法总结推理。可能吗?我可以在包含 15000 个数据的数据集上运行 TextRank(例如)吗?
下面给出的代码不应被考虑在内。不相关的代码共享问题。
python - 文本排名在 0 和 1 之间归一化
我想调整此 Text Rank 代码以在我的文本中提取关键字,其值在 0 和 1 之间进行标准化。我展示了一个简短的片段:
我看到输出是类似的:
我想将Text Rank值标准化为 0 到 1 之间,以获得最大值。
在维基百科上,我在这里 找到了这两个公式
但是如果我添加(1-self.d)/g.shape[0]
到前面的公式中,那么:
我仍然有一些高于 1 的值。有什么错误?
python - 使用 pandas 块大小并行化数据帧操作
我有一个包含 350k 行和一列(名为“文本”)的数据框。
我想将此函数应用于我的数据集:
但是如果我运行它,它需要很长时间才能完成(将近 50 个小时)。
可以使用 chunksize 或其他方法来并行化数据帧操作,如何?
感谢您的时间!
nlp - 没有句子的“文档”中的文本摘要
我有一个约 100 个“文档”的非语言语料库,每个包含一个约 10k 个“单词”的序列(即我有一组约 100 个整数序列)。我可以学习尊重语料库中已知类的良好 doc2vec 嵌入。我现在有兴趣总结这些文档,以帮助解释哪些主题不仅代表每个文档,而且在类之间具有区分性。
我主要熟悉 TextRank 作为一种抽取式摘要方法,但这通常依赖于句子(即以句点结尾的子序列)作为底层节点排名算法的合理原子。就我而言,序列标记是事先不知道的,因为本身没有句子。
有没有考虑到这一点的总结方法?到目前为止,我已经尝试在所有 n-gram 上使用 TextRank 以获得固定的 n,但这排除了涉及不同长度标记的摘要,这在我的设置中恰好是至关重要的。例如,是否有任何多尺度汇总方法?