问题标签 [nltk-book]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在 python 中使用 nltk 找到特定的二元组?
我目前正在使用 nltk.book iny Python,并希望找到特定二元组的频率。我知道有 bigram() 函数可以为您提供文本中最常见的二元组,如以下代码所示:
但是,如果我只搜索“希望”之类的特定内容怎么办?到目前为止,我在 nltk 文档中找不到任何关于此的内容。
python - 在 python NLTK 或其他包中将任何州、县、地区的名称或其缩写更改为国家/地区名称
我有一个位置列表,其中包含州、城市和国家、县和地区,有缩写,有一些是完整的。例如,纽约州、加利福尼亚州、英格兰、英国、美国、明尼苏达州、伦敦、布拉德福德等。我希望将其全部转换为国家/地区,例如 NY=USA、England=UK、Scotland = UK、Minnesota = USA 等。
我想要一个可以在我的程序中使用的包或库来将任何缩写、州、州代码或任何城市更改为位置所在的国家/地区。所以如果你是伦敦,它应该返回英国,芝加哥返回美国,等等。
是否有可能在python中实现这一点?提前致谢。
python - 如何阅读以下代码行?
为这个基本问题道歉,因为我对这个话题很陌生。
您能否按照下面给出的格式破解上面的代码:
python - 在函数中使用 nltk.book 导入
我正在尝试编写一个简单的函数,如下所示:
我知道我可以在函数之前导入文本。但是,我想知道为什么会出现以下错误
ImportError:无法从“nltk.book”导入名称“文本”
它告诉我,作为语料库的“文本”在 nltk 中不存在——这是真的。但是,我希望用户将文本识别为 text1、text2 或 text3。
python - 如何在标签后获得合并的单词?
我正在研究一个数据集,该数据集需要从数据框列的每个句子中提取形容词、动词和副词的所有单词。
这是我正在研究如何获得所需输出的示例。
它给我的输出是:
我需要得到的输出是这样的:
有人可以帮忙吗?
nltk - 获取日语文本的 METEOR 分数
我希望为几个日语字符串生成 METEOR 分数。我已经导入nltk
,但结果wordnet
并omw
不能说服我它工作正常。
这个输出0.5
但肯定应该更接近于1.0
参考和假设是相同的?
我是否需要以某种方式指定要在调用中使用的 wordnet 语言single_meteor_score()
,例如:
single_meteor_score(reference, hypothesis, wordnet=wordnetJapanese
.
nlp - 条件频率分布
嗨 :) 我对 Python 和 NLP 非常陌生,现在正在尝试阅读 O'Reilly 的 NLTK 书。我目前正处于关于使用条件频率分布进行绘图和制表的任务中。任务如下:“找出一周中哪些日子最有新闻价值,哪些日子最浪漫。定义一个名为 days 的变量,其中包含一周中的几天列表,即 ['Monday', ...]。现在使用 cfd.tabulate(samples=days) 将这些单词的计数制成表格。现在使用 plot 代替 tabulate 尝试同样的事情。您可以借助一个额外的参数来控制天数的输出顺序:samples=['Monday' , ...]。”
这是我的代码:
我的结果是:
请有人向我解释为什么我有这些数据,而不是计算语料库中每种类型的每个单词使用了多少?我会非常感激任何帮助
python - 使用 NLTK 构建字符级 Ngram 语言模型
我正在尝试使用 NLTK 的 KneserNeyInterpolated 函数在字符级别上构建语言模型。我拥有的是熊猫数据框中单词的频率列表,唯一的列是它的频率(单词本身就是索引)。根据单词的平均长度,我确定 9 克模型是合适的。
尝试调试:
这行得通(我猜?),但我似乎无法将功能扩展到连续训练新单词到语言模型,我仍然无法生成逼真的单词。我觉得我在这里缺少有关该模块应该如何工作的基本内容。让这有点困难的是,所有教程似乎都基于单词级 ngram。
nlp - 获取 nltk semcor 语料库词的意义词干
我在 nltk 中尝试使用 semcor corpus。
我在这里找到了这段代码:
我在 colab 上尝试了同样的方法(检查此笔记本中的最后一个单元格):
这是colab的屏幕截图:
问题
请注意,在 nltk 页面上,Fulton County Grand Jury
输出为Lemma('group.n.01.group')
,但在 colab 上,我得到group.n.01
. 所以我没有理解/同义词集引理。
- 在
group.n.01.group
- 首先
group
是“词干” - 最后
group
是“输入词干”
- 首先
- 在
group.n.01
- (第一个也是唯一的)
group
是“输入词干” - 不返回“词干”
- (第一个也是唯一的)
奇怪的是它昨天给了我正确的输出。这个笔记本将消除疑问,因为它今天和昨天执行了相同的两行。昨天(2/9/2021),我收到了格式的标签group.n.01.group
,但今天我收到了group.n.01
格式的标签(注意红色和蓝色评论):
我在这里缺少什么?