问题标签 [nltk-book]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
762 浏览

python - 设置ntlk代理

我正在关注nltk 书的第一章。它要求我们通过运行来安装图书语料库nltk.dowwnload()

getattrinfo failed在做ntlk.download(). 在网上看了之后才知道这和我的代理有关。

在此处输入图像描述

所以我尝试以不同的方式设置代理(尝试httphttps%40@密码):

(我能够成功设置代理pip并安装nltk,但不确定在nltk代理的情况下我是否犯了错误)

然后我也试过

接下来我尝试了

但这也给出了同样的错误:

然后我也尝试按照这里的建议更改服务器索引 url ,但没有用。预填充的索引也是有效的(我可以在浏览器中打开它),所以我想我不需要更改服务器索引 url。

0 投票
1 回答
323 浏览

nlp - NLTK pos tagger 为同一个词创建不同的标签。有人可以解释一下吗?

单词 RR 在一种情况下被标记为 NN,在另一种情况下被标记为 NNP。申请人在一种情况下被标记为 NN,在另一种情况下被标记为 JJ。为什么同一个词会有这种差异?不应该将任何以大写字母开头的内容标记为 NNP 吗?

0 投票
0 回答
159 浏览

nltk - span_tokenize 将生成器对象作为输出

我写了一段简单的代码来看看 span_tokenize 函数是如何工作的。这方面的文档可以在这里找到:http
://www.nltk.org/api/nltk.tokenize.html 这是我的一段代码

输出如下:

从 nltk 文档中可以看出,当预期输出为 tuple(int,int) 时,我无法理解为什么我将生成器对象作为输出

向正确方向轻推表示赞赏!

0 投票
1 回答
74 浏览

python - 虚拟助手的 POS 标记器

我正在尝试为 Voise 助手构建一个 POS 标记器。但是,nltk 的 pos 标记器 nltk.pos_tag 对我来说效果不佳。例如:

在上述情况下,我希望 open 这个词是动词而不是形容词。类似地,它将单词“close”标记为副词而不是动词。

我也尝试过使用n-gram tagger

我使用了来自nltk. 但它仍然给出相同的结果。

所以我想知道:

  1. 是否有更好的标记语料库来训练标记器以制作语音/虚拟助手?
  2. 是否有比 trigram 更高的 n-gram,即一起查看 4 个或更多单词,例如 trigram 和 bigram 分别查看 3 个和 2 个单词。它会提高性能吗?
  3. 我怎样才能解决这个问题?
0 投票
1 回答
323 浏览

python-3.x - Windows Anaconda 中的 nltk pos_tag 错误

虽然我希望使用 pos_tag 函数收集 POS 标签,但发生以下错误。我包含了 nltk 所需的所有包。nltk 版本为 3.3 并在 conda 环境中运行。python版本是3.6。每个 nltk 包都是使用 nltk 下载函数下载的,但是每次我运行 pos_tag 函数时都会引发以下错误。

0 投票
0 回答
57 浏览

python - 导入 nltk 时收到错误消息

我成功地安装了 nltk,并且还安装了所有先决条件。

尽管如此,我在导入 nltk 时一直收到这样的错误消息。

0 投票
2 回答
3263 浏览

python - 需要 Python NLTK 就职文本语料库动手解决方案

我正在学习 NLTK Python 课程,该课程在“Text Corpora”上有一个动手问题(在 Katacoda 上),它不接受我下面提到的解决方案。长期以来一直被困在这个问题上。需要完成此动手操作才能在课程中进行前言。

问题定义:

导入就职语料库 对于语料库中可用的每个就职地址文本,执行以下操作。将所有单词转换为小写。然后确定以美国或公民开头的单词数。

提示:计算条件频率分布,其中条件是就职演说发表的年份,事件是美国或公民。将条件频率分布存储在变量 ac_cfd 中。

打印 ['america', 'citizen'] 在年份 [1841, 1993] 中出现的频率。

提示:利用与条件频率分布相关的制表方法。

为此,我编写了以下解决方案:

这给出了输出:

我无法在不同的论坛上找到相同的问题,尽管我确实发现了一个类似的问题,它想要绘制条件频率分布,他们的解决方案与我的相同,但有一个不同的,而不是他们绘制的表格线。( https://www.nltk.org/book/ch02.html ) 但是 Katacoda 不接受这个解决方案,我无法在课程中继续前进,因为必须完成动手操作。请帮忙

0 投票
2 回答
1062 浏览

python-3.x - “单词”不在语料库中的词汇表中,单词仅在 gensim 库中显示在单个列表中

您好社区成员,

目前,我正在实现 Word2Vec 算法。

首先,我提取了数据(句子),将句子分解并拆分为标记(单词),删除标点符号并将标记存储在单个列表中。该列表基本上包含单词。然后我计算了单词的频率,然后根据频率计算它的出现次数。结果是一个列表。

接下来,我尝试使用 gensim 加载模型。但是,我面临一个问题。问题是关于the word is not in the vocabulary。代码片段,无论我尝试过什么,如下所示。

注意:我在 Windows 操作系统中使用 Python 3.7。从 中syntax of gensim,建议使用句子并拆分为标记,并将其应用于构建和训练模型。我的问题是如何将其应用于仅包含单词的单个列表的语料库。在模型训练期间,我也使用列表指定了单词,即 [words]。

0 投票
1 回答
273 浏览

python - nltkdispersion_plot() 函数不起作用。具有线条样式“|” 已从 matplotlib 中删除?

我正在尝试使用 nltkdispersion_plot() 函数绘制词汇分散图。我的代码是

我得到的结果是

]([![点未抽签] 1 )

在做了一些谷歌搜索并浏览了dispersion_plot()函数的代码(https://www.nltk.org/_modules/nltk/draw/dispersion.html)后,我发现它使用了“b|” 作为它在 plot() 函数中的线条样式。但根据 matplotlib 文档,只有四种可能的线条样式 {'-', '--', '-.', ':'} ( https://matplotlib.org/gallery/lines_bars_and_markers/line_styles_reference.html )。

所以我的疑问是行式“|” 之前有,但现在已被删除,因为dispersion_plot() 无法绘制绘图或有其他原因。

还有这个问题的解决方法是什么?

0 投票
1 回答
1350 浏览

python - Python:AttributeError:'NoneType'对象没有属性'start'

以下代码属于 NLTK 正则表达式:

我得到的错误是:

我已经包含了它的库,但它仍然显示错误。我有什么方法可以处理这个错误?