问题标签 [keyword-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 从短文本中提取和排名关键字
我正在做一个从短文本(3-4 个句子)中提取关键字的项目。使用spaCy
库我提取名词短语和 NER 并将它们用作关键字。但是,我想根据它们对原始文本的重要性对它们进行排序。
我尝试了标准的信息检索方法,例如tfidf
,甚至是一些基于图形的算法,但是文本如此短,结果并不是那么好。
我在想也许使用带有注意力机制的神经网络可以帮助我对这些关键词进行排名。有没有办法使用 spaCy 附带的预训练模型进行某种排名?
java - 我正在尝试使用 KEA 关键字提取算法
我下载了最新的 jar 文件(https://code.google.com/p/kea-algorithm/)并将其添加到我在 eclipse 中的类路径中。但是我收到以下错误“无法解析类型 weka.core.OptionHandler。它是从所需的 .class 文件中间接引用的”我在设置 PorterStemmer 时收到此错误。
如果您知道任何其他可以与 java 一起使用的关键字提取工具,我将不胜感激!
nltk - 查找一个短语在英语中是否“普遍罕见”
我想从文本中提取稀有词。在该文本中并不罕见,但在英语中通常很少见。是否有使用可以回答此类查询的大型语料库的 NLTK 模块?
machine-learning - 字符串索引器,CountVectorizer Pyspark 单行
嗨,我遇到了一个问题,即我有两列单词数组的行。
基本上我想计算列之间每个单词的出现次数,最终得到两个数组:
所以“a”在每个数组中出现一次,“b”在column1出现两次,column2出现一次,“c”只出现在column1,“x”和“y”只出现在column2。等等等等。
我试图查看 ml 库中的 CountVectorizer 函数,但不确定它是否按行工作,每列中的数组可能非常大?并且 0 值(其中一个单词出现在一个列中,但没有出现在另一列中)似乎没有得到贯彻。
任何帮助表示赞赏。
python - 使用 pke 模块提取 python 关键短语
我试图使用https://github.com/boudinfl/pke模块提取关键短语。当我运行它一次它完美地工作。但是当我多次运行它时,它会发出以下错误。ZeroDivisionError:浮点除以零
我的代码如下。
它为第一个 json 文件完美运行,但是在启动第二个文件时它给了我
ZeroDivisionError: float division by zero
python - python - 如何使用TFIDF为python中的每一行提取关键字?
我有一列只有文字。我需要使用 TFIDF 从每一行中提取顶级关键字。
示例输入:
预期输出:
我怎么得到这个?我尝试编写以下代码
我收到以下错误 Iterable over raw text documents expected, string object received。
python - 你可以重新训练 RAKE 吗?
是否可以重新训练 RAKE(快速自动关键字提取器)?
如果是这样,怎么做?
谢谢!
python - 用于关键字提取的 Python Rake
我正在尝试在我的数据集上使用 rake 来提取关键词和短语。不过,我在我的数据框上应用它时遇到了一些麻烦。
我的代码如下:
其输出本质上只是将每条记录中的任何文本作为一个实体返回
所以: inputrow1 = '你好,这是一些文本' ----> ['你好,这是一些文本']
如果我一次使用一段文本,它可以正常工作,例如 rake_implement('this will work well')
似乎我的问题是以某种方式从 csv 读取数据,有没有人知道一种方法来遍历 pd df 的每一行并将 rake 应用于每条记录?
nlp - pke 库中有哪些可能的词性 (pos) 值?
我正在使用 pke MultipartiteRank 和 PositionRank 库从输入文本中提取关键字。我想探索 pos 超参数可能具有的值。我浏览了图书馆,找不到任何支持文档。它列出了名词、形容词、代词,但在浏览其他网站时,我发现甚至支持动词。谁能在这里分享一份详尽的清单。
谢谢
库链接: https ://boudinfl.github.io/pke/build/html/unsupervised.html
用法:pos = {'NOUN', 'VERB', 'ADJ'} extractor.candidate_weighting(window=10,pos=pos)