问题标签 [nltk]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nltk - S -> NP VP,这些句子是否遵循这种格式?
我正在用 S -> NP VP 格式解析一些句子(来自 nltk 语料库中的就职演讲),我想确保我正确解析了它们,这些句子是否遵循上述格式,对不起,如果这个问题看起来微不足道,英语不是我的第一语言。如果有人对 NP VP 之后的给定句子有任何疑问,请问我,我会告诉你我为什么选择它的原因,并给你它的解析树。
提前致谢。
python - 如何从 NLTK 自带的样本语料库中提取单词?
NLTK 附带一些语料库样本:http: //nltk.googlecode.com/svn/trunk/nltk_data/index.xml
我只想有没有编码的文本。我不知道如何提取这些内容。我要提取的是
1) nps_chat:解压后文件名类似于 10-19-20s_706posts.xml。此类文件是 XML 格式,例如:
我只想要那个实际的帖子:
在本地磁盘中剥离编码后,如何在 NLTK 或(无论如何)保存裸帖子?
2) 总机成绩单。此类文件(文件名是解压后的discourse)包含以下格式。我想要的是去除前面的标记:
我只想拥有:
非常感谢您提前。
python - 在 Python 中用于内容分类的 Orange vs NLTK
我们需要一个内容分类模块。贝叶斯分类器似乎是我正在寻找的。我们应该选择 Orange 还是 NLTK ?
python - 用于情感提取的python代码中的nltk
如果您能帮助我找到将我的 python 代码与nltk链接的解决方案,我将非常高兴。我的代码用于在聊天环境的背景下创建情感提取引擎。我可以将聊天者和他们的谈话分开。现在我需要从他们的对话中提取名词、动词、形容词等。
我怎样才能做到这一点?有人请帮助我......我被困住了。
python - 使用 NLTK 将分词器组合成语法和解析器
我正在阅读 NLTK 书,但我似乎无法做一些看起来是构建体面语法的自然第一步。
我的目标是为特定的文本语料库构建语法。
(最初的问题:我是否应该尝试从头开始学习语法,还是应该从预定义的语法开始?如果我应该从另一种语法开始,哪个是英语的好开始?)
假设我有以下简单的语法:
这个语法可以解析一个很简单的句子,比如:
现在我想扩展这个语法来处理带有其他名词和动词的句子。如何在不手动定义语法的情况下将这些名词和动词添加到我的语法中?
例如,假设我希望能够解析句子“A car haswheels”。我知道提供的标记器可以神奇地找出哪些单词是动词/名词等。我如何使用标记器的输出来告诉语法“轮子”是名词?
python - pydev eclipse 中的 NLTK
我有 python 2.6 、用于 python 的 NLTK 以及我正在使用的几个外部资源。问题是,一切都被识别(导入语句)
任何人都知道这是为什么,因为程序应该在 nltk 中找到 punkd 版本(因为它识别 nltk)?
python - 使用 nltk.data.load 加载english.pickle 失败
尝试加载punkt
标记器时...
...aLookupError
提出:
python - 我将如何根据时态(现在、过去、未来等)对句子进行分类?
我想解析一个文本并根据它们的语法结构对句子进行分类,但是我对 NLP 的了解非常少,所以我什至不知道从哪里开始。
据我所读,我需要解析文本并找出(或标记?)每个单词的词性。然后我搜索动词从句或我想用来对句子进行分类的任何其他定义特征。
我不知道是否已经有一些方法可以更轻松地做到这一点,或者我是否需要单独定义语法规则或什么。
任何讨论这个问题的 NLP 资源都会很棒。程序示例也很受欢迎。我以前使用过 NLTK,但并不广泛。其他解析器或语言也可以!
python - 如何增量训练 nltk 分类器
我正在开发一个项目,使用 python nltk 模块和 naivebayes 分类器对文本片段进行分类。我能够对语料库数据进行训练并对另一组数据进行分类,但希望在初始训练后将额外的训练信息输入分类器。
如果我没记错的话,似乎没有办法做到这一点,因为 NaiveBayesClassifier.train 方法需要一组完整的训练数据。有没有办法在不输入原始特征集的情况下添加到训练数据中?
我愿意接受包括其他分类器在内的建议,这些分类器可以随着时间的推移接受新的训练数据。
python - 给定一个名词,确定“性别”的最佳方法是什么?
我的任务是确定广告是适合男性还是女性。确定这一点的最佳方法是什么?
单词看起来像这样:
对于每个单词,我想知道它是否与男性或女性更相关。它不一定是正确的。我知道很难说“耐克”是适合男性还是女性。任何方法都可以帮助我进行头脑风暴。