“keyword-extraction”的相关标签问题

0 投票

1 回答

253 浏览

google-colaboratory - KeyBERT 包不适用于 Google Colab

我在 Google Colab 上使用 KeyBERT 从文本中提取关键字。

但我收到以下错误：

OSError：在模型名称列表中找不到模型名称“distilbert-base-nli-mean-token”（distilbert-base-uncased、distilbert-base-uncased-distilled-squad）。我们假设“distilbert-base-nli-mean-token”是名为 config.json 的配置文件或包含此类文件的目录的路径或 url，但在此路径或 url 处找不到任何此类文件。

知道如何解决这个问题吗？

谢谢

2021-06-23T23:04:55.090

0 投票

0 回答

374 浏览

google-colaboratory - 在 Colab 上使用 KeyBERT 时收到“TypeError: 'DistilBertTokenizer' object is not callable”

在 Google Colab 上运行 KeyBERT 来提取关键字会给出以下代码：

但我得到一个TypeError: 'DistilBertTokenizer' 对象不可调用。我正在查看关于 stackoverflow 的另一篇文章。我猜我可能不应该直接调用 extract_keywords 。有什么建议吗？

完整的日志被复制：

我尝试使用不同的模型（BertTokenizer），但错误仍然存在。任何建议表示赞赏。

google-colaboratory bert-language-model keyword-extraction

2021-06-24T18:59:35.197

0 投票

0 回答

63 浏览

python - 在计算关键字提取的 TF-IDF 算法时除以零

我编写了一个基于 TF-IDF 算法的代码，用于从非常大的文本中提取关键字。问题是我不断得到零误差除法。当我调试我的代码时，一切都运行良好。只要我使文本更短以包含导致问题的单词，它就会起作用。所以，我认为这是一个内存问题。

我想也许我可以分块（1KB）读取大文本文件，而不是一开始就读取整个文档。不幸的是，它不起作用。我应该怎么办？（我在 Windows 上使用 pycharm）

我是编程、python 和 NLP 领域的初学者。因此，如果你能在这里帮助我，我真的很感激。

python nlp tf-idf keyword-extraction

2021-07-06T19:16:56.077

0 投票

4 回答

90 浏览

python - 如何从重复的字符串中提取单词

在这里，我在列表中有一个字符串：

我想在列表中得到“四月”这个词，但不仅仅是其中一个，而是“四月”这个词实际出现在字符串中的次数。

输出应该是这样的：

因为“四月”这个词在那个字符串中出现了 3 次。

好吧，这个词实际上并没有出现三次，所有字符都出现了。所以我想将这些字符排序为“四月”，它们在字符串中出现了多少次。

我的想法基本上是从一些随机字符串中提取单词，但不仅仅是提取单词，而是提取字符串中出现的所有单词。应该提取每个单词，并且应该按照我想要的方式对单词（字符）进行排序。

但是在这里我有一些烦人的情况；您不能删除列表中的所有元素，然后将它们替换为单词“april”（您不能将整个字符串替换为单词“april”）；您只能从字符串中提取“四月”，而不是替换它们。您也不能删除带有字符串的列表。想想所有的字符串都有非常重要的数据，我们只想要一些数据，但是这些数据必须是有序的，我们需要删除所有与我们的“数据链”不匹配的数据（单词'april'） . 但是一旦删除整个字符串，您将丢失所有重要数据。你不知道如何制作另一个这些“数据链”，所以我们不能只把“四月”这个词放回列表中。

如果有人知道如何解决我奇怪的问题，请帮帮我，我是初学者 python 程序员。谢谢！

python string for-loop text-extraction keyword-extraction

2021-07-15T01:21:32.990

0 投票

0 回答

60 浏览

python - GeoText（Python）：删除国家名称

我已经安装了 GeoText 包，它工作得很好。我的情况是：

如果我的字符串包含：“我住在德国”。

我想从这个字符串中排除城市/国家。通过使用，GeoText 它将正常工作。

但，

如果我的字符串包含：“我住在德国区”，那么它不会将德国视为一个国家！它打印一个空列表。

这是 Python 代码（这不会打印德国）：

但是下面的代码将打印“德国”，

这个“区域”是否意味着该包中的某些内容？我的要求是从文本文件中提取城市和国家名称。

请给我一些建议。我被困住了！让我知道是否有任何其他有用的软件包可用。

python nltk keyword-extraction geotext

2021-10-20T20:58:42.593

0 投票

1 回答

41 浏览

spacy - 将大文本提供给 PyTextRank

我想PyTextRank用于关键词提取。如何将 500 万份文档（每个文档由几段组成）提供给包？

这是我在官方教程上看到的例子。

我是否只能选择将数百万个文档连接到一个字符串并将其传递给nlp(text)？我不认为我可以使用nlp.pipe(texts)，因为我想通过计算所有文档中的单词/短语来创建一个网络。

spacy keyword-extraction pytextrank

2021-10-21T20:02:54.093

0 投票

1 回答

34 浏览

python - 根据列值重新排列行

我有一个 DataFrame，我想在其中重新排列给定列的数据。

我有的：

我想要什么：

包含文本的每一行都显示在“文本”列中。“文本”列已被分析并从中提取关键字并显示在“关键字”列中。烦人的部分是，如果从“文本”列中提取 10 个关键词，它将创建 10 行，每行添加 1 个关键词。我想将所有这些关键字加入一行（对应于好文本）。

不幸的是，我无法访问由软件完成的关键字提取过程。

python pandas dataframe keyword-extraction

2021-11-11T15:02:55.647

0 投票

0 回答

20 浏览

python - WordWise 包的错误消息。关键字提取功能在 DafaFrame 上部分工作

我正在使用我最近发现的一个很棒的包来提取关键字。'WordWise'。特别感谢开发它的 Jake Tae。

它在计划文本上运行良好并返回了很好的结果，但 DataFrame 的实现并不那么顺利。我决定构建一个函数来遍历给定列中的所有文本元素。

它确实有效，但需要相当长的时间。运行 2 或 3 分钟后，它给了我这个错误：

这是我的代码：

输出：

如您所见，它正在处理这个小文本，但运行时间长达 6 秒。我的数据框大约有 15000 行（* 2 列），我无法想象需要多长时间。

当我在这里将它应用到 DF 时，我的代码：

到目前为止，它仅适用于 10 行的样本 df。当我尝试将大小增加到 100 以上时，它会返回我提到的错误：

主要问题是我不能在我的整个专栏中使用包模块。我不确定它是来自我的功能还是直接与包有关，与我想做的事情不兼容。

如果有人对此有所了解，请提前致谢！

有关更多详细信息，请在此处查看完整的错误消息：

python dataframe function nlp keyword-extraction

2021-11-18T14:09:41.413

问题标签 [keyword-extraction]

Reference