问题标签 [penn-treebank]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 我如何在 python/nltk 中使用完整的 penn 树库数据集
我正在尝试学习在 python 中使用NLTK包。特别是,我需要在 NLTK 中使用 penn 树库数据集。据我所知,如果我打电话,nltk.download('treebank')
我可以获得 5% 的数据集。但是,我在 tar.gz 文件中有一个完整的数据集,我想使用它。在 这里据说:
如果您可以访问 Penn Treebank 的完整安装,也可以将 NLTK 配置为加载它。下载 ptb 包,并在目录 nltk_data/corpora/ptb 中放置 Treebank 安装的 BROWN 和 WSJ 目录(符号链接也可以)。然后使用 ptb 模块代替 treebank:
所以,我从终端打开了 python,导入了 nltk 并输入了nltk.download('ptb')
. 使用此命令,已在我的目录下创建了“ptb”~/nltk_data
目录。最后,现在我有了~/nltk_data/ptb
目录。在那里,正如我在上面给出的链接中所建议的那样,我已经放置了我的数据集文件夹。所以这是我的最终目录层次结构。
在从00到24的所有文件夹中,有很多 .mrg
文件wsj_0001.mrg , wsj_0002.mrg
,诸如此类。
现在,让我们回到我的问题。同样,根据这里:
如果我编写以下内容,我应该能够获取文件 ID:
不幸的是,当我输入时,print(ptb.fileids())
我得到了空数组。
有没有人可以帮助我?
编辑 这里是我的 ptb 目录和一些 allcats.txt 文件的内容:
python - 从本地目录读取完整的 penn 树库数据集
我有一个完整的 penn 树库数据集,我想使用ptb
from读取它ntlk.corpus
。但是这里说:
如果您可以访问 Penn Treebank 的完整安装,也可以将 NLTK 配置为加载它。下载 ptb 包,并在目录 nltk_data/corpora/ptb 中放置 Treebank 安装的 BROWN 和 WSJ 目录(符号链接也可以)。然后使用 ptb 模块代替 treebank:
但我想将数据集保存在本地目录中,然后从那里加载它而不是从nltk_data/corpora/ptb
. ptb
总是在那个目录中搜索,但是我怎样才能给出一个路径,ptb
以便它在给定的目录中搜索?有什么办法可以做到吗?我已经在网上彻底搜索并尝试了几种方法,但对我没有任何帮助!
java - 确定接下来会出现什么树库类型
我是 useApache NLP
和它的POSTaggerME
. 我有它分解词成他们的Penn Treebank tag set
价值观。是否有任何功能(不一定在 Apache NLP 中)可以让您知道使用英语语言结构和语义接下来会出现什么样的词?
例如,我有一个句子"Most large "
分解为JJS
and JJ
。或一个Adjective, superlative
,和一个Adjective
。我想知道的是,使用英语的结构,是否有一个工具可以告诉我接下来是否可以出现类似 anNNS
或 a 的内容Noun, plural
并且句子仍然有效?
stanford-nlp - 如何在斯坦福 NLP 中生成情感树库
我正在使用 Sentiment Stanford NLP 库进行情绪分析。
现在我想从一个句子中生成一个树库
输入句子:“Effective but too-tepid biopic”
输出树库:(2 (3 (3 Effective) (2 but)) (1 (1 too-tepid) (2 biopic)))
谁能告诉我怎么做?谢谢大家。
nlp - 如何从基于列的 CoNLL 格式转换为 Penn Treebank 注释样式?
有人知道从基于列的 CoNLL 格式转换为 Penn Treebank 注释样式的任何工具、脚本等吗?
nltk - 如何减少 Penn Treebank 中的 POS 标签数量?- NLTK(Python)
我使用 nltk 进行词性标注。它有 36 个 Penn Treebank。我想将标签的数量减少到6个:“名词、动词、形容词、副词、介词、连词”我该怎么做?有没有具体的功能属性?还是命令?
python - 查找 NLTK 树中每个节点的跨度
我是 nltk 的新手,发现很难处理 nltk 树。给定来自 Penn 树库的 nltk 解析树,我希望能够从下到上递归地计算每个节点的跨度。叶节点的跨度为1。非终端节点的跨度是其子节点的跨度之和。有人可以告诉我怎么做吗?
谢谢你。
python - 从解析的句子中提取函数标签(使用斯坦福解析器)
查看 Penn Treebank 标签集 ( http://web.mit.edu/6.863/www/PennTreebankTags.html#RB ) 有一个名为“功能标签”的部分,这对我正在进行的项目非常有帮助。我知道斯坦福解析器将 Penn Treebank 标记集用于其 EnglishPCFG 语法,所以我希望支持函数标记。
使用斯坦福解析器和 NLTK,我已经解析了带有子句、短语和单词级别标签以及通用依赖项的句子,但我还没有找到从解析的句子中获取函数标签的方法。
打印出来:
对于这个例子,我希望有一个带有介词“最多 5% 以上”的 -EXT(范围)功能标签,尽管我不确定实际输出会是什么样子。
是否可以使用 Stanford Parser 和 NLTK 查看已解析句子的功能标签?如果是这样,我该如何做到这一点?
machine-learning - 如何学习语言模型?
我正在尝试使用基于 Penn Treebank (PTB) 语料库的 LSTM 训练语言模型。
我在想我应该简单地训练语料库中的每个二元组,这样它就可以在给定先前单词的情况下预测下一个单词,但是它无法根据多个前面的单词预测下一个单词。
那么训练语言模型到底是什么?
在我当前的实现中,我的批量大小=20,词汇量为 10000,所以我有 20 个 10k 条目(参数?)的结果矩阵,并且通过与 20 个 10k 条目的真实矩阵进行比较来计算损失,其中只有实际下一个单词的索引为 1,其他条目为零。这是一个正确的实现吗?我感到困惑 2 几乎不会随着迭代而改变,这绝对不在通常的正确范围内,比如 100 左右。
lstm - 计算在 penn 树库上训练 LSTM 的困惑度
我正在宾夕法尼亚树库上实施语言模型培训。
我为每个时间步添加损失,然后计算困惑度。
即使经过一段时间的训练,这也给了我数千亿的高度困惑。
损失本身会减少,但最多只能降到 20 左右。(我需要一位数字来表示损失以获得合理的困惑)。
这让我怀疑我的困惑度计算是否被误导了。
它应该基于每个时间步的损失然后平均而不是全部加起来吗?
我的 batch_size 是 20,num_steps 是 35。