“penn-treebank”的相关标签问题

0 投票

1 回答

3535 浏览

python - 我如何在 python/nltk 中使用完整的 penn 树库数据集

我正在尝试学习在 python 中使用NLTK包。特别是，我需要在 NLTK 中使用 penn 树库数据集。据我所知，如果我打电话，nltk.download('treebank')我可以获得 5% 的数据集。但是，我在 tar.gz 文件中有一个完整的数据集，我想使用它。在这里据说：

如果您可以访问 Penn Treebank 的完整安装，也可以将 NLTK 配置为加载它。下载 ptb 包，并在目录 nltk_data/corpora/ptb 中放置 Treebank 安装的 BROWN 和 WSJ 目录（符号链接也可以）。然后使用 ptb 模块代替 treebank：

所以，我从终端打开了 python，导入了 nltk 并输入了nltk.download('ptb'). 使用此命令，已在我的目录下创建了“ptb”~/nltk_data目录。最后，现在我有了~/nltk_data/ptb目录。在那里，正如我在上面给出的链接中所建议的那样，我已经放置了我的数据集文件夹。所以这是我的最终目录层次结构。

在从00到24的所有文件夹中，有很多 .mrg文件wsj_0001.mrg , wsj_0002.mrg ，诸如此类。

现在，让我们回到我的问题。同样，根据这里：

如果我编写以下内容，我应该能够获取文件 ID：

不幸的是，当我输入时，print(ptb.fileids())我得到了空数组。

有没有人可以帮助我？

编辑这里是我的 ptb 目录和一些 allcats.txt 文件的内容：

2016-03-18T08:21:09.693

0 投票

1 回答

1052 浏览

python - 从本地目录读取完整的 penn 树库数据集

我有一个完整的 penn 树库数据集，我想使用ptbfrom读取它ntlk.corpus。但是这里说：

如果您可以访问 Penn Treebank 的完整安装，也可以将 NLTK 配置为加载它。下载 ptb 包，并在目录 nltk_data/corpora/ptb 中放置 Treebank 安装的 BROWN 和 WSJ 目录（符号链接也可以）。然后使用 ptb 模块代替 treebank：

但我想将数据集保存在本地目录中，然后从那里加载它而不是从nltk_data/corpora/ptb. ptb总是在那个目录中搜索，但是我怎样才能给出一个路径，ptb以便它在给定的目录中搜索？有什么办法可以做到吗？我已经在网上彻底搜索并尝试了几种方法，但对我没有任何帮助！

python nltk penn-treebank

2016-11-23T18:16:08.663

0 投票

0 回答

57 浏览

java - 确定接下来会出现什么树库类型

我是 useApache NLP和它的POSTaggerME. 我有它分解词成他们的Penn Treebank tag set价值观。是否有任何功能（不一定在 Apache NLP 中）可以让您知道使用英语语言结构和语义接下来会出现什么样的词？

例如，我有一个句子"Most large "分解为JJSand JJ。或一个Adjective, superlative，和一个Adjective。我想知道的是，使用英语的结构，是否有一个工具可以告诉我接下来是否可以出现类似 anNNS或 a 的内容Noun, plural并且句子仍然有效？

java nlp opennlp penn-treebank

2016-12-14T01:10:54.317

0 投票

1 回答

876 浏览

stanford-nlp - 如何在斯坦福 NLP 中生成情感树库

我正在使用 Sentiment Stanford NLP 库进行情绪分析。

现在我想从一个句子中生成一个树库

输入句子：“Effective but too-tepid biopic”

输出树库：(2 (3 (3 Effective) (2 but)) (1 (1 too-tepid) (2 biopic)))

谁能告诉我怎么做？谢谢大家。

stanford-nlp sentiment-analysis penn-treebank

2017-03-15T04:42:47.693

0 投票

1 回答

317 浏览

nlp - 如何从基于列的 CoNLL 格式转换为 Penn Treebank 注释样式？

有人知道从基于列的 CoNLL 格式转换为 Penn Treebank 注释样式的任何工具、脚本等吗？

nlp stanford-nlp penn-treebank

2017-04-03T13:08:34.540

0 投票

4 回答

1411 浏览

nltk - 如何减少 Penn Treebank 中的 POS 标签数量？- NLTK（Python）

我使用 nltk 进行词性标注。它有 36 个 Penn Treebank。我想将标签的数量减少到6个：“名词、动词、形容词、副词、介词、连词”我该怎么做？有没有具体的功能属性？还是命令？

nltk pos-tagger penn-treebank

2017-05-22T16:17:31.743

0 投票

1 回答

509 浏览

python - 查找 NLTK 树中每个节点的跨度

我是 nltk 的新手，发现很难处理 nltk 树。给定来自 Penn 树库的 nltk 解析树，我希望能够从下到上递归地计算每个节点的跨度。叶节点的跨度为1。非终端节点的跨度是其子节点的跨度之和。有人可以告诉我怎么做吗？

谢谢你。

python tree nltk text-parsing penn-treebank

2017-06-06T09:20:21.230

0 投票

0 回答

556 浏览

python - 从解析的句子中提取函数标签（使用斯坦福解析器）

查看 Penn Treebank 标签集 ( http://web.mit.edu/6.863/www/PennTreebankTags.html#RB ) 有一个名为“功能标签”的部分，这对我正在进行的项目非常有帮助。我知道斯坦福解析器将 Penn Treebank 标记集用于其 EnglishPCFG 语法，所以我希望支持函数标记。

使用斯坦福解析器和 NLTK，我已经解析了带有子句、短语和单词级别标签以及通用依赖项的句子，但我还没有找到从解析的句子中获取函数标签的方法。

打印出来：

对于这个例子，我希望有一个带有介词“最多 5% 以上”的 -EXT（范围）功能标签，尽管我不确定实际输出会是什么样子。

是否可以使用 Stanford Parser 和 NLTK 查看已解析句子的功能标签？如果是这样，我该如何做到这一点？

python nlp nltk stanford-nlp penn-treebank

2017-06-13T17:48:59.193

0 投票

1 回答

85 浏览

machine-learning - 如何学习语言模型？

我正在尝试使用基于 Penn Treebank (PTB) 语料库的 LSTM 训练语言模型。

我在想我应该简单地训练语料库中的每个二元组，这样它就可以在给定先前单词的情况下预测下一个单词，但是它无法根据多个前面的单词预测下一个单词。

那么训练语言模型到底是什么？
在我当前的实现中，我的批量大小=20，词汇量为 10000，所以我有 20 个 10k 条目（参数？）的结果矩阵，并且通过与 20 个 10k 条目的真实矩阵进行比较来计算损失，其中只有实际下一个单词的索引为 1，其他条目为零。这是一个正确的实现吗？我感到困惑 2 几乎不会随着迭代而改变，这绝对不在通常的正确范围内，比如 100 左右。

machine-learning nlp lstm language-model penn-treebank

2017-11-15T00:05:14.577

0 投票

2 回答

2147 浏览

lstm - 计算在 penn 树库上训练 LSTM 的困惑度

我正在宾夕法尼亚树库上实施语言模型培训。

我为每个时间步添加损失，然后计算困惑度。

即使经过一段时间的训练，这也给了我数千亿的高度困惑。

损失本身会减少，但最多只能降到 20 左右。（我需要一位数字来表示损失以获得合理的困惑）。

这让我怀疑我的困惑度计算是否被误导了。

它应该基于每个时间步的损失然后平均而不是全部加起来吗？

我的 batch_size 是 20，num_steps 是 35。

lstm rnn penn-treebank

2017-12-29T08:02:09.827

问题标签 [penn-treebank]

Reference