问题标签 [keyword-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
google-colaboratory - KeyBERT 包不适用于 Google Colab
我在 Google Colab 上使用 KeyBERT 从文本中提取关键字。
但我收到以下错误:
OSError:在模型名称列表中找不到模型名称“distilbert-base-nli-mean-token”(distilbert-base-uncased、distilbert-base-uncased-distilled-squad)。我们假设“distilbert-base-nli-mean-token”是名为 config.json 的配置文件或包含此类文件的目录的路径或 url,但在此路径或 url 处找不到任何此类文件。
知道如何解决这个问题吗?
谢谢
google-colaboratory - 在 Colab 上使用 KeyBERT 时收到“TypeError: 'DistilBertTokenizer' object is not callable”
在 Google Colab 上运行 KeyBERT 来提取关键字会给出以下代码:
但我得到一个TypeError: 'DistilBertTokenizer' 对象不可调用。我正在查看关于 stackoverflow 的另一篇文章。我猜我可能不应该直接调用 extract_keywords 。有什么建议吗?
完整的日志被复制:
我尝试使用不同的模型(BertTokenizer),但错误仍然存在。任何建议表示赞赏。
python - 在计算关键字提取的 TF-IDF 算法时除以零
我编写了一个基于 TF-IDF 算法的代码,用于从非常大的文本中提取关键字。问题是我不断得到零误差除法。当我调试我的代码时,一切都运行良好。只要我使文本更短以包含导致问题的单词,它就会起作用。所以,我认为这是一个内存问题。
我想也许我可以分块(1KB)读取大文本文件,而不是一开始就读取整个文档。不幸的是,它不起作用。我应该怎么办?(我在 Windows 上使用 pycharm)
我是编程、python 和 NLP 领域的初学者。因此,如果你能在这里帮助我,我真的很感激。
python - 如何从重复的字符串中提取单词
在这里,我在列表中有一个字符串:
我想在列表中得到“四月”这个词,但不仅仅是其中一个,而是“四月”这个词实际出现在字符串中的次数。
输出应该是这样的:
因为“四月”这个词在那个字符串中出现了 3 次。
好吧,这个词实际上并没有出现三次,所有字符都出现了。所以我想将这些字符排序为“四月”,它们在字符串中出现了多少次。
我的想法基本上是从一些随机字符串中提取单词,但不仅仅是提取单词,而是提取字符串中出现的所有单词。应该提取每个单词,并且应该按照我想要的方式对单词(字符)进行排序。
但是在这里我有一些烦人的情况;您不能删除列表中的所有元素,然后将它们替换为单词“april”(您不能将整个字符串替换为单词“april”);您只能从字符串中提取“四月”,而不是替换它们。您也不能删除带有字符串的列表。想想所有的字符串都有非常重要的数据,我们只想要一些数据,但是这些数据必须是有序的,我们需要删除所有与我们的“数据链”不匹配的数据(单词'april') . 但是一旦删除整个字符串,您将丢失所有重要数据。你不知道如何制作另一个这些“数据链”,所以我们不能只把“四月”这个词放回列表中。
如果有人知道如何解决我奇怪的问题,请帮帮我,我是初学者 python 程序员。谢谢!
python - GeoText(Python):删除国家名称
我已经安装了 GeoText 包,它工作得很好。我的情况是:
如果我的字符串包含:“我住在德国”。
我想从这个字符串中排除城市/国家。通过使用,GeoText 它将正常工作。
但,
如果我的字符串包含:“我住在德国区”,那么它不会将德国视为一个国家!它打印一个空列表。
这是 Python 代码(这不会打印德国):
但是下面的代码将打印“德国”,
这个“区域”是否意味着该包中的某些内容?我的要求是从文本文件中提取城市和国家名称。
请给我一些建议。我被困住了!让我知道是否有任何其他有用的软件包可用。
spacy - 将大文本提供给 PyTextRank
我想PyTextRank
用于关键词提取。如何将 500 万份文档(每个文档由几段组成)提供给包?
这是我在官方教程上看到的例子。
我是否只能选择将数百万个文档连接到一个字符串并将其传递给nlp(text)
?我不认为我可以使用nlp.pipe(texts)
,因为我想通过计算所有文档中的单词/短语来创建一个网络。
python - 根据列值重新排列行
我有一个 DataFrame,我想在其中重新排列给定列的数据。
我有的:
我想要什么:
包含文本的每一行都显示在“文本”列中。“文本”列已被分析并从中提取关键字并显示在“关键字”列中。烦人的部分是,如果从“文本”列中提取 10 个关键词,它将创建 10 行,每行添加 1 个关键词。我想将所有这些关键字加入一行(对应于好文本)。
不幸的是,我无法访问由软件完成的关键字提取过程。
python - WordWise 包的错误消息。关键字提取功能在 DafaFrame 上部分工作
我正在使用我最近发现的一个很棒的包来提取关键字。'WordWise'。特别感谢开发它的 Jake Tae。
它在计划文本上运行良好并返回了很好的结果,但 DataFrame 的实现并不那么顺利。我决定构建一个函数来遍历给定列中的所有文本元素。
它确实有效,但需要相当长的时间。运行 2 或 3 分钟后,它给了我这个错误:
这是我的代码:
输出:
如您所见,它正在处理这个小文本,但运行时间长达 6 秒。我的数据框大约有 15000 行(* 2 列),我无法想象需要多长时间。
当我在这里将它应用到 DF 时,我的代码:
到目前为止,它仅适用于 10 行的样本 df。当我尝试将大小增加到 100 以上时,它会返回我提到的错误:
主要问题是我不能在我的整个专栏中使用包模块。我不确定它是来自我的功能还是直接与包有关,与我想做的事情不兼容。
如果有人对此有所了解,请提前致谢!
有关更多详细信息,请在此处查看完整的错误消息: