问题标签 [penn-treebank]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3535 浏览

python - 我如何在 python/nltk 中使用完整的 penn 树库数据集

我正在尝试学习在 python 中使用NLTK包。特别是,我需要在 NLTK 中使用 penn 树库数据集。据我所知,如果我打电话,nltk.download('treebank')我可以获得 5% 的数据集。但是,我在 tar.gz 文件中有一个完整的数据集,我想使用它。在 这里据说:

如果您可以访问 Penn Treebank 的完整安装,也可以将 NLTK 配置为加载它。下载 ptb 包,并在目录 nltk_data/corpora/ptb 中放置 Treebank 安装的 BROWN 和 WSJ 目录(符号链接也可以)。然后使用 ptb 模块代替 treebank:

所以,我从终端打开了 python,导入了 nltk 并输入了nltk.download('ptb'). 使用此命令,已在我的目录下创建了“ptb”~/nltk_data目录。最后,现在我有了~/nltk_data/ptb目录。在那里,正如我在上面给出的链接中所建议的那样,我已经放置了我的数据集文件夹。所以这是我的最终目录层次结构。

在从00到24的所有文件夹中,有很多 .mrg文件wsj_0001.mrg , wsj_0002.mrg ,诸如此类。

现在,让我们回到我的问题。同样,根据这里

如果我编写以下内容,我应该能够获取文件 ID:

不幸的是,当我输入时,print(ptb.fileids())我得到了空数组。

有没有人可以帮助我?

编辑 这里是我的 ptb 目录和一些 allcats.txt 文件的内容:

0 投票
1 回答
1052 浏览

python - 从本地目录读取完整的 penn 树库数据集

我有一个完整的 penn 树库数据集,我想使用ptbfrom读取它ntlk.corpus。但是这里说:

如果您可以访问 Penn Treebank 的完整安装,也可以将 NLTK 配置为加载它。下载 ptb 包,并在目录 nltk_data/corpora/ptb 中放置 Treebank 安装的 BROWN 和 WSJ 目录(符号链接也可以)。然后使用 ptb 模块代替 treebank:

但我想将数据集保存在本地目录中,然后从那里加载它而不是从nltk_data/corpora/ptb. ptb总是在那个目录中搜索,但是我怎样才能给出一个路径,ptb以便它在给定的目录中搜索?有什么办法可以做到吗?我已经在网上彻底搜索并尝试了几种方法,但对我没有任何帮助!

0 投票
0 回答
57 浏览

java - 确定接下来会出现什么树库类型

我是 useApache NLP和它的POSTaggerME. 我有它分解词成他们的Penn Treebank tag set价值观。是否有任何功能(不一定在 Apache NLP 中)可以让您知道使用英语语言结构和语义接下来会出现什么样的词?

例如,我有一个句子"Most large "分解为JJSand JJ。或一个Adjective, superlative,和一个Adjective。我想知道的是,使用英语的结构,是否有一个工具可以告诉我接下来是否可以出现类似 anNNS或 a 的内容Noun, plural并且句子仍然有效?

0 投票
1 回答
876 浏览

stanford-nlp - 如何在斯坦福 NLP 中生成情感树库

我正在使用 Sentiment Stanford NLP 库进行情绪分析。

现在我想从一个句子中生成一个树库

输入句子:“Effective but too-tepid biopic”

输出树库:(2 (3 (3 Effective) (2 but)) (1 (1 too-tepid) (2 biopic)))

谁能告诉我怎么做?谢谢大家。

0 投票
1 回答
317 浏览

nlp - 如何从基于列的 CoNLL 格式转换为 Penn Treebank 注释样式?

有人知道从基于列的 CoNLL 格式转换为 Penn Treebank 注释样式的任何工具、脚本等吗?

0 投票
4 回答
1411 浏览

nltk - 如何减少 Penn Treebank 中的 POS 标签数量?- NLTK(Python)

我使用 nltk 进行词性标注。它有 36 个 Penn Treebank。我想将标签的数量减少到6个:“名词、动词、形容词、副词、介词、连词”我该怎么做?有没有具体的功能属性?还是命令?

0 投票
1 回答
509 浏览

python - 查找 NLTK 树中每个节点的跨度

我是 nltk 的新手,发现很难处理 nltk 树。给定来自 Penn 树库的 nltk 解析树,我希望能够从下到上递归地计算每个节点的跨度。叶节点的跨度为1。非终端节点的跨度是其子节点的跨度之和。有人可以告诉我怎么做吗?

谢谢你。

0 投票
0 回答
556 浏览

python - 从解析的句子中提取函数标签(使用斯坦福解析器)

查看 Penn Treebank 标签集 ( http://web.mit.edu/6.863/www/PennTreebankTags.html#RB ) 有一个名为“功能标签”的部分,这对我正在进行的项目非常有帮助。我知道斯坦福解析器将 Penn Treebank 标记集用于其 EnglishPCFG 语法,所以我希望支持函数标记。

使用斯坦福解析器和 NLTK,我已经解析了带有子句、短语和单词级别标签以及通用依赖项的句子,但我还没有找到从解析的句子中获取函数标签的方法。

打印出来:

对于这个例子,我希望有一个带有介词“最多 5% 以上”的 -EXT(范围)功能标签,尽管我不确定实际输出会是什么样子。

是否可以使用 Stanford Parser 和 NLTK 查看已解析句子的功能标签?如果是这样,我该如何做到这一点?

0 投票
1 回答
85 浏览

machine-learning - 如何学习语言模型?

  1. 我正在尝试使用基于 Penn Treebank (PTB) 语料库的 LSTM 训练语言模型。

    我在想我应该简单地训练语料库中的每个二元组,这样它就可以在给定先前单词的情况下预测下一个单词,但是它无法根据多个前面的单词预测下一个单词。

    那么训练语言模型到底是什么?

  2. 在我当前的实现中,我的批量大小=20,词汇量为 10000,所以我有 20 个 10k 条目(参数?)的结果矩阵,并且通过与 20 个 10k 条目的真实矩阵进行比较来计算损失,其中只有实际下一个单词的索引为 1,其他条目为零。这是一个正确的实现吗?我感到困惑 2 几乎不会随着迭代而改变,这绝对不在通常的正确范围内,比如 100 左右。

0 投票
2 回答
2147 浏览

lstm - 计算在 penn 树库上训练 LSTM 的困惑度

我正在宾夕法尼亚树库上实施语言模型培训。

我为每个时间步添加损失,然后计算困惑度。

即使经过一段时间的训练,这也给了我数千亿的高度困惑。

损失本身会减少,但最多只能降到 20 左右。(我需要一位数字来表示损失以获得合理的困惑)。

这让我怀疑我的困惑度计算是否被误导了。

它应该基于每个时间步的损失然后平均而不是全部加起来吗?

我的 batch_size 是 20,num_steps 是 35。