“nltk-book”的相关标签问题

0 投票

0 回答

762 浏览

python - 设置ntlk代理

我正在关注nltk 书的第一章。它要求我们通过运行来安装图书语料库nltk.dowwnload()。

我getattrinfo failed在做ntlk.download(). 在网上看了之后才知道这和我的代理有关。

所以我尝试以不同的方式设置代理（尝试http或https，%40或@密码）：

（我能够成功设置代理pip并安装nltk，但不确定在nltk代理的情况下我是否犯了错误）

然后我也试过

接下来我尝试了

但这也给出了同样的错误：

然后我也尝试按照这里的建议更改服务器索引 url ，但没有用。预填充的索引也是有效的（我可以在浏览器中打开它），所以我想我不需要更改服务器索引 url。

2018-03-06T12:29:06.753

0 投票

1 回答

323 浏览

nlp - NLTK pos tagger 为同一个词创建不同的标签。有人可以解释一下吗？

单词 RR 在一种情况下被标记为 NN，在另一种情况下被标记为 NNP。申请人在一种情况下被标记为 NN，在另一种情况下被标记为 JJ。为什么同一个词会有这种差异？不应该将任何以大写字母开头的内容标记为 NNP 吗？

nlp nltk pos-tagger nltk-book

2018-03-14T14:17:43.197

0 投票

0 回答

159 浏览

nltk - span_tokenize 将生成器对象作为输出

我写了一段简单的代码来看看 span_tokenize 函数是如何工作的。这方面的文档可以在这里找到：http
://www.nltk.org/api/nltk.tokenize.html 这是我的一段代码

输出如下：

从 nltk 文档中可以看出，当预期输出为 tuple(int,int) 时，我无法理解为什么我将生成器对象作为输出

向正确方向轻推表示赞赏！

nltk tokenize text-mining stringtokenizer nltk-book

2018-03-15T02:56:29.983

0 投票

1 回答

74 浏览

python - 虚拟助手的 POS 标记器

我正在尝试为 Voise 助手构建一个 POS 标记器。但是，nltk 的 pos 标记器 nltk.pos_tag 对我来说效果不佳。例如：

在上述情况下，我希望 open 这个词是动词而不是形容词。类似地，它将单词“close”标记为副词而不是动词。

我也尝试过使用n-gram tagger

我使用了来自nltk. 但它仍然给出相同的结果。

所以我想知道：

是否有更好的标记语料库来训练标记器以制作语音/虚拟助手？
是否有比 trigram 更高的 n-gram，即一起查看 4 个或更多单词，例如 trigram 和 bigram 分别查看 3 个和 2 个单词。它会提高性能吗？
我怎样才能解决这个问题？

python machine-learning nlp nltk nltk-book

2018-04-10T13:38:33.103

0 投票

1 回答

323 浏览

python-3.x - Windows Anaconda 中的 nltk pos_tag 错误

虽然我希望使用 pos_tag 函数收集 POS 标签，但发生以下错误。我包含了 nltk 所需的所有包。nltk 版本为 3.3 并在 conda 环境中运行。python版本是3.6。每个 nltk 包都是使用 nltk 下载函数下载的，但是每次我运行 pos_tag 函数时都会引发以下错误。

python-3.x anaconda nltk nltk-trainer nltk-book

2018-06-08T12:31:57.207

0 投票

0 回答

57 浏览

python - 导入 nltk 时收到错误消息

我成功地安装了 nltk，并且还安装了所有先决条件。

尽管如此，我在导入 nltk 时一直收到这样的错误消息。

python python-3.x nlp nltk nltk-book

2018-06-17T11:51:43.653

0 投票

2 回答

3263 浏览

python - 需要 Python NLTK 就职文本语料库动手解决方案

我正在学习 NLTK Python 课程，该课程在“Text Corpora”上有一个动手问题（在 Katacoda 上），它不接受我下面提到的解决方案。长期以来一直被困在这个问题上。需要完成此动手操作才能在课程中进行前言。

问题定义：

导入就职语料库对于语料库中可用的每个就职地址文本，执行以下操作。将所有单词转换为小写。然后确定以美国或公民开头的单词数。

提示：计算条件频率分布，其中条件是就职演说发表的年份，事件是美国或公民。将条件频率分布存储在变量 ac_cfd 中。

打印 ['america', 'citizen'] 在年份 [1841, 1993] 中出现的频率。

提示：利用与条件频率分布相关的制表方法。

为此，我编写了以下解决方案：

这给出了输出：

我无法在不同的论坛上找到相同的问题，尽管我确实发现了一个类似的问题，它想要绘制条件频率分布，他们的解决方案与我的相同，但有一个不同的，而不是他们绘制的表格线。( https://www.nltk.org/book/ch02.html ) 但是 Katacoda 不接受这个解决方案，我无法在课程中继续前进，因为必须完成动手操作。请帮忙

python nltk nltk-book katacoda

2018-07-19T05:21:47.147

0 投票

2 回答

1062 浏览

python-3.x - “单词”不在语料库中的词汇表中，单词仅在 gensim 库中显示在单个列表中

您好社区成员，

目前，我正在实现 Word2Vec 算法。

首先，我提取了数据（句子），将句子分解并拆分为标记（单词），删除标点符号并将标记存储在单个列表中。该列表基本上包含单词。然后我计算了单词的频率，然后根据频率计算它的出现次数。结果是一个列表。

接下来，我尝试使用 gensim 加载模型。但是，我面临一个问题。问题是关于the word is not in the vocabulary。代码片段，无论我尝试过什么，如下所示。

注意：我在 Windows 操作系统中使用 Python 3.7。从中syntax of gensim，建议使用句子并拆分为标记，并将其应用于构建和训练模型。我的问题是如何将其应用于仅包含单词的单个列表的语料库。在模型训练期间，我也使用列表指定了单词，即 [words]。

python-3.x nltk gensim word2vec nltk-book

2018-08-21T09:23:24.053

0 投票

1 回答

273 浏览

python - nltkdispersion_plot() 函数不起作用。具有线条样式“|” 已从 matplotlib 中删除？

我正在尝试使用 nltkdispersion_plot() 函数绘制词汇分散图。我的代码是

我得到的结果是

]([![点未抽签 ] 1 )

在做了一些谷歌搜索并浏览了dispersion_plot()函数的代码（https://www.nltk.org/_modules/nltk/draw/dispersion.html）后，我发现它使用了“b|” 作为它在 plot() 函数中的线条样式。但根据 matplotlib 文档，只有四种可能的线条样式 {'-', '--', '-.', ':'} ( https://matplotlib.org/gallery/lines_bars_and_markers/line_styles_reference.html )。

所以我的疑问是行式“|” 之前有，但现在已被删除，因为dispersion_plot() 无法绘制绘图或有其他原因。

还有这个问题的解决方法是什么？

python matplotlib nltk nltk-book

2018-09-27T17:53:33.583

0 投票

1 回答

1350 浏览

python - Python：AttributeError：'NoneType'对象没有属性'start'

以下代码属于 NLTK 正则表达式：

我得到的错误是：

我已经包含了它的库，但它仍然显示错误。我有什么方法可以处理这个错误？

python python-3.x jupyter-notebook nltk nltk-book

2018-11-27T15:11:26.473

问题标签 [nltk-book]

Reference