问题标签 [nltk]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

6812 问题

0 投票

4 回答

81561 浏览

python - 使用 NLTK 创建新语料库

我认为我的标题的答案通常是去阅读文档，但我浏览了NLTK 书，但它没有给出答案。我对 Python 有点陌生。

我有一堆.txt文件，我希望能够使用 NLTK 为 corpus 提供的语料库功能nltk_data。

我已经尝试过PlaintextCorpusReader，但我无法做到：

如何newcorpus使用 punkt 分割句子？我尝试使用 punkt 函数，但 punkt 函数无法读取PlaintextCorpusReader类？

您还可以指导我如何将分段数据写入文本文件吗？

2011-02-09T23:19:48.213

0 投票

2 回答

2519 浏览

python - python NLTK 中的荷兰语语法

我正在研究荷兰语语料库，我想知道 NLTK 中是否嵌入了荷兰语语法，以便我可以解析我的句子？一般来说，NLTK 只适用于英语吗？我知道它有 Alpino 荷兰语语料库，但没有迹象表明这些功能（如使用 CFG 解析）也适用于荷兰语。谢谢

python parsing nlp nltk context-free-grammar

2011-02-14T10:12:50.057

0 投票

1 回答

3080 浏览

python - 在 NLTK 中创建自己的语料库的优势

Mysql 表中有大量文本。我想使用 NLTK 工具包对我的文本进行一些统计分析，然后再进行一些 NLP。我有两个选择：

从我的数据库表中一次提取所有文本（如果需要，可以将它们放入文件中）并使用 NLTK 函数
提取文本并将其转换为可与 NLTK 一起使用的“语料库”。

后者似乎很复杂，我还没有找到任何实际描述如何使用它的文章，我只发现了这个： Creating a MongoDB backed corpus reader which uses MongoDB as its database，代码相当复杂，还需要了解 MongoDB。另一方面，前者看起来非常简单，但会导致从 DB 中提取文本的开销。

现在的问题是，NLTK 中语料库的优势是什么？换句话说，如果我接受挑战并深入研究覆盖 NTLK 方法以便它可以从 MySQL 数据库中读取，是否值得麻烦？将我的文本变成语料库是否会给我一些我不能（或很难）用普通 NLTK 函数做的事情？

另外，如果您知道有关将 MySQL 连接到 NLTK 的信息，请告诉我。谢谢

python mysql database nltk

2011-02-15T11:14:20.367

0 投票

2 回答

255 浏览

python - 如何找到文本特征并打印它们？

我刚刚开始使用自然语言工具包 (NLTK) 作为我工程学院项目的一部分。谁能告诉我如何阅读输入的段落文本和

1）将其分解为文本组件，即给定段落中的句子数、单词数、字符数以及多音节或复杂单词的数量

和

2）同时打印上述确定的值

python nltk

2011-02-15T16:30:05.647

0 投票

1 回答

646 浏览

python - 如何构建IMS开源语料工作台和NLTK可读语料？

目前我有一堆 .txt 文件。在每个 .txt 文件中，每个句子由换行符分隔。如何将其更改为 IMS CWB 格式以便 CWB 可以读取？以及 nltk 格式。

有人可以引导我到一个howto页面来做到这一点吗？或者是否有一个指南页面可以做到这一点，我试过阅读手册，但我真的不知道。www.cwb.sourceforge.net/files/CWB_Encoding_Tutorial.pdf

这是否意味着我创建了一个数据和注册表目录，然后我运行 cwb-encode 命令，它将全部转换为 vrt 文件？它一次转换一个文件吗？我如何编写脚本以运行目录中的多个文件？

python nltk corpus

2011-02-18T06:24:11.283

0 投票

1 回答

821 浏览

python - nltk.cluster 使用稀疏表示

我对 Python 很陌生。

我正在尝试使用 nltk.cluster 包将简单的 kMeans 应用于 word-document 矩阵。虽然它在矩阵是 numpy 类数组对象的列表时有效，但我无法使其适用于稀疏矩阵表示（例如 csc_matrix、csr_matrix 或 lil_matrix）。

我找到的所有信息是：

请注意，向量必须使用 numpy 类数组对象。nltk_contrib.unimelb.tacohn.SparseArrays 可在需要时用于提高效率

我不明白这是什么意思。任何人都可以在这件事上帮助我吗？

提前致谢！

python nltk

2011-02-18T17:15:21.610

0 投票

8 回答

20324 浏览

python - 如何计算文件中的句子、单词和字符的数量？

我编写了以下代码来标记来自文件 samp.txt 的输入段落。任何人都可以帮我查找并打印文件中的句子、单词和字符的数量吗？为此，我在 python 中使用了 NLTK。

python nltk

2011-02-22T05:54:50.013

0 投票

2 回答

542 浏览

python - Python NLTK 标记 AssertionError

在使用 NLTK 使用 PlainTextCorpusReader 处理大约 5000 个帖子时，我遇到了一个奇怪的断言错误。对于我们的一些数据集，我们没有任何重大问题。然而，在极少数情况下，我遇到了：

我的代码（基本上）像这样工作：

似乎 nltk 在文件缓冲区中失去了它的位置，但我不是 100% 的。知道什么可能导致这种情况发生吗？似乎它与我正在处理的数据有关。也许是一些时髦的角色？

python nltk

2011-02-22T20:02:14.577

0 投票

2 回答

2219 浏览

python - 使用 Python 从个人地名簿中识别命名实体

我尝试使用 NLTK 在 python 中进行命名实体识别。我想提取个人技能列表。我有技能列表，想在申请中搜索它们并标记技能。我注意到 NLTK 有用于预定义标签（如 Person、Location 等）的 NER 标记。我可以使用 Python 中的外部地名词典标记器吗？知道如何比搜索术语（有时是多词术语）更复杂吗？

谢谢，阿萨夫

python nlp nltk named-entity-recognition

2011-02-22T22:07:54.783

0 投票

1 回答

202 浏览

linux - 我如何通过文本文件编写 hunpos 脚本？

我的目的是使用 POS 解析器 HunPos http://code.google.com/p/hunpos/wiki/UserManualI解析几个文本文件

有没有办法通过一堆文本文件来 bash 脚本 hunpos？

linux bash nlp nltk

2011-02-23T02:15:05.240

1 2 3 4 5 6 7 8 9 10

问题标签 [nltk]

Reference