问题标签 [nltk]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
4 回答
81561 浏览

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档,但我浏览了NLTK 书,但它没有给出答案。我对 Python 有点陌生。

我有一堆.txt文件,我希望能够使用 NLTK 为 corpus 提供的语料库功能nltk_data

我已经尝试过PlaintextCorpusReader,但我无法做到:

如何newcorpus使用 punkt 分割句子?我尝试使用 punkt 函数,但 punkt 函数无法读取PlaintextCorpusReader类?

您还可以指导我如何将分段数据写入文本文件吗?

0 投票
2 回答
2519 浏览

python - python NLTK 中的荷兰语语法

我正在研究荷兰语语料库,我想知道 NLTK 中是否嵌入了荷兰语语法,以便我可以解析我的句子?一般来说,NLTK 只适用于英语吗?我知道它有 Alpino 荷兰语语料库,但没有迹象表明这些功能(如使用 CFG 解析)也适用于荷兰语。谢谢

0 投票
1 回答
3080 浏览

python - 在 NLTK 中创建自己的语料库的优势

Mysql 表中有大量文本。我想使用 NLTK 工具包对我的文本进行一些统计分析,然后再进行一些 NLP。我有两个选择:

  1. 从我的数据库表中一次提取所有文本(如果需要,可以将它们放入文件中)并使用 NLTK 函数
  2. 提取文本并将其转换为可与 NLTK 一起使用的“语料库”。

后者似乎很复杂,我还没有找到任何实际描述如何使用它的文章,我只发现了这个: Creating a MongoDB backed corpus reader which uses MongoDB as its database,代码相当复杂,还需要了解 MongoDB。另一方面,前者看起来非常简单,但会导致从 DB 中提取文本的开销。

现在的问题是,NLTK 中语料库的优势是什么?换句话说,如果我接受挑战并深入研究覆盖 NTLK 方法以便它可以从 MySQL 数据库中读取,是否值得麻烦?将我的文本变成语料库是否会给我一些我不能(或很难)用普通 NLTK 函数做的事情?

另外,如果您知道有关将 MySQL 连接到 NLTK 的信息,请告诉我。谢谢

0 投票
2 回答
255 浏览

python - 如何找到文本特征并打印它们?

我刚刚开始使用自然语言工具包 (NLTK) 作为我工程学院项目的一部分。谁能告诉我如何阅读输入的段落文本

1)将其分解为文本组件,即给定段落中的句子数、单词数、字符数以及多音节或复杂单词的数量

2)同时打印上述确定的值

0 投票
1 回答
646 浏览

python - 如何构建IMS开源语料工作台和NLTK可读语料?

目前我有一堆 .txt 文件。在每个 .txt 文件中,每个句子由换行符分隔。如何将其更改为 IMS CWB 格式以便 CWB 可以读取?以及 nltk 格式。

有人可以引导我到一个howto页面来做到这一点吗?或者是否有一个指南页面可以做到这一点,我试过阅读手册,但我真的不知道。www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

这是否意味着我创建了一个数据和注册表目录,然后我运行 cwb-encode 命令,它将全部转换为 vrt 文件?它一次转换一个文件吗?我如何编写脚本以运行目录中的多个文件?

0 投票
1 回答
821 浏览

python - nltk.cluster 使用稀疏表示

我对 Python 很陌生。

我正在尝试使用 nltk.cluster 包将简单的 kMeans 应用于 word-document 矩阵。虽然它在矩阵是 numpy 类数组对象的列表时有效,但我无法使其适用于稀疏矩阵表示(例如 csc_matrix、csr_matrix 或 lil_matrix)。

我找到的所有信息是:

请注意,向量必须使用 numpy 类数组对象。nltk_contrib.unimelb.tacohn.SparseArrays 可在需要时用于提高效率

我不明白这是什么意思。任何人都可以在这件事上帮助我吗?

提前致谢!

0 投票
8 回答
20324 浏览

python - 如何计算文件中的句子、单词和字符的数量?

我编写了以下代码来标记来自文件 samp.txt 的输入段落。任何人都可以帮我查找并打印文件中的句子、单词和字符的数量吗?为此,我在 python 中使用了 NLTK。

0 投票
2 回答
542 浏览

python - Python NLTK 标记 AssertionError

在使用 NLTK 使用 PlainTextCorpusReader 处理大约 5000 个帖子时,我遇到了一个奇怪的断言错误。对于我们的一些数据集,我们没有任何重大问题。然而,在极少数情况下,我遇到了:

我的代码(基本上)像这样工作:

似乎 nltk 在文件缓冲区中失去了它的位置,但我不是 100% 的。知道什么可能导致这种情况发生吗?似乎它与我正在处理的数据有关。也许是一些时髦的角色?

0 投票
2 回答
2219 浏览

python - 使用 Python 从个人地名簿中识别命名实体

我尝试使用 NLTK 在 python 中进行命名实体识别。我想提取个人技能列表。我有技能列表,想在申请中搜索它们并标记技能。我注意到 NLTK 有用于预定义标签(如 Person、Location 等)的 NER 标记。我可以使用 Python 中的外部地名词典标记器吗?知道如何比搜索术语(有时是多词术语)更复杂吗?

谢谢, 阿萨夫

0 投票
1 回答
202 浏览

linux - 我如何通过文本文件编写 hunpos 脚本?

我的目的是使用 POS 解析器 HunPos http://code.google.com/p/hunpos/wiki/UserManualI解析几个文本文件

有没有办法通过一堆文本文件来 bash 脚本 hunpos?