问题标签 [nltk-book]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
104 浏览

python - 如何在 python 中使用 nltk 找到特定的二元组?

我目前正在使用 nltk.book iny Python,并希望找到特定二元组的频率。我知道有 bigram() 函数可以为您提供文本中最常见的二元组,如以下代码所示:

但是,如果我只搜索“希望”之类的特定内容怎么办?到目前为止,我在 nltk 文档中找不到任何关于此的内容。

0 投票
0 回答
25 浏览

nlp - 什么是更自然的解析,导致句子的首选阅读

我有这些规则: 在此处输入图像描述

以及这两个可能的解析树:

在此处输入图像描述

我被问到下一个问题:

什么是更自然的解析,导致对句子的首选阅读?

谁能向我解释一下,英语中什么更自然,为什么?

按照这个

我看不出有任何更自然的区别。

0 投票
0 回答
53 浏览

python - 在 python NLTK 或其他包中将任何州、县、地区的名称或其缩写更改为国家/地区名称

我有一个位置列表,其中包含州、城市和国家、县和地区,有缩写,有一些是完整的。例如,纽约州、加利福尼亚州、英格兰、英国、美国、明尼苏达州、伦敦、布拉德福德等。我希望将其全部转换为国家/地区,例如 NY=USA、England=UK、Scotland = UK、Minnesota = USA 等。

我想要一个可以在我的程序中使用的包或库来将任何缩写、州、州代码或任何城市更改为位置所在的国家/地区。所以如果你是伦敦,它应该返回英国,芝加哥返回美国,等等。

是否有可能在python中实现这一点?提前致谢。

0 投票
2 回答
34 浏览

python - 如何阅读以下代码行?

为这个基本问题道歉,因为我对这个话题很陌生。

您能否按照下面给出的格式破解上面的代码:

0 投票
1 回答
83 浏览

python - 在函数中使用 nltk.book 导入

我正在尝试编写一个简单的函数,如下所示:

我知道我可以在函数之前导入文本。但是,我想知道为什么会出现以下错误

ImportError:无法从“nltk.book”导入名称“文本”

它告诉我,作为语料库的“文本”在 nltk 中不存在——这是真的。但是,我希望用户将文本识别为 text1、text2 或 text3。

0 投票
1 回答
23 浏览

python - 如何在标签后获得合并的单词?

我正在研究一个数据集,该数据集需要从数据框列的每个句子中提取形容词、动词和副词的所有单词。

这是我正在研究如何获得所需输出的示例。

它给我的输出是:

我需要得到的输出是这样的:

有人可以帮忙吗?

0 投票
1 回答
34 浏览

nltk - 获取日语文本的 METEOR 分数

我希望为几个日语字符串生成 METEOR 分数。我已经导入nltk,但结果wordnetomw不能说服我它工作正常。

这个输出0.5但肯定应该更接近于1.0参考和假设是相同的?

我是否需要以某种方式指定要在调用中使用的 wordnet 语言single_meteor_score(),例如:

single_meteor_score(reference, hypothesis, wordnet=wordnetJapanese.

0 投票
0 回答
56 浏览

nlp - 条件频率分布

嗨 :) 我对 Python 和 NLP 非常陌生,现在正在尝试阅读 O'Reilly 的 NLTK 书。我目前正处于关于使用条件频率分布进行绘图和制表的任务中。任务如下:“找出一周中哪些日子最有新闻价值,哪些日子最浪漫。定义一个名为 days 的变量,其中包含一周中的几天列表,即 ['Monday', ...]。现在使用 cfd.tabulate(samples=days) 将这些单词的计数制成表格。现在使用 plot 代替 tabulate 尝试同样的事情。您可以借助一个额外的参数来控制天数的输出顺序:samples=['Monday' , ...]。”

这是我的代码:

我的结果是:

我得到了什么

请有人向我解释为什么我有这些数据,而不是计算语料库中每种类型的每个单词使用了多少?我会非常感激任何帮助

0 投票
1 回答
130 浏览

python - 使用 NLTK 构建字符级 Ngram 语言模型

我正在尝试使用 NLTK 的 KneserNeyInterpolated 函数在字符级别上构建语言模型。我拥有的是熊猫数据框中单词的频率列表,唯一的列是它的频率(单词本身就是索引)。根据单词的平均长度,我确定 9 克模型是合适的。

尝试调试:

这行得通(我猜?),但我似乎无法将功能扩展到连续训练新单词到语言模型,我仍然无法生成逼真的单词。我觉得我在这里缺少有关该模块应该如何工作的基本内容。让这有点困难的是,所有教程似乎都基于单词级 ngram。

0 投票
1 回答
39 浏览

nlp - 获取 nltk semcor 语料库词的意义词干

我在 nltk 中尝试使用 semcor corpus。

我在这里找到了这段代码:

我在 colab 上尝试了同样的方法(检查笔记本中的最后一个单元格):

这是colab的屏幕截图:

在此处输入图像描述

问题

请注意,在 nltk 页面上,Fulton County Grand Jury输出为Lemma('group.n.01.group'),但在 colab 上,我得到group.n.01. 所以我没有理解/同义词集引理。

  • group.n.01.group
    • 首先group是“词干”
    • 最后group是“输入词干”
  • group.n.01
    • (第一个也是唯一的)group是“输入词干”
    • 不返回“词干”

奇怪的是它昨天给了我正确的输出。这个笔记本将消除疑问,因为它今天和昨天执行了相同的两行。昨天(2/9/2021),我收到了格式的标签group.n.01.group,但今天我收到了group.n.01格式的标签(注意红色和蓝色评论):

在此处输入图像描述

我在这里缺少什么?