问题标签 [nltk-trainer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

45 问题

0 投票

1 回答

211 浏览

nlp - 带有负例的 NLTK MaxentClassifier 训练

我是 nltk 图书馆的新手，我尝试用我自己的语料库教我的分类器一些标签。

为此，我有一个带有 IOB 标签的文件，如下所示：

我这样做：

它有效。

如何训练我classifier的负面案例？

我会有类似的带有 IOB 标签的文件，并且我会指定这个文件设置错误。（负重）

我怎样才能做到这一点？

否定情况的示例是：

在那之后，我希望记住 How 可能不是 MYTag... 这样做的原因是，分类器学习得更快。

如果我可以只输入语句，程序会处理它，最后问我是否对结果满意。如果是，则此文本将添加到 . train_set，否则将添加到negative_train_set.

这样，教分类器正确的东西会更容易和更快。

nlp tags nltk nltk-trainer

2017-02-09T20:01:33.987

0 投票

3 回答

2071 浏览

python - 如何在 nltk 中将自定义语料库添加到本地计算机

我有一个自定义语料库，它使用我需要进行一些分类的数据创建。我有与 movie_reviews 语料库包含的格式相同的数据集。根据 nltk 文档，我使用以下代码访问 movie_reviews 语料库。无论如何，是否可以将任何自定义语料库添加到 nltk_data/corpora 目录并访问该语料库，就像我们访问现有语料库一样。

python nltk nltk-trainer

2017-02-11T13:56:15.570

0 投票

1 回答

1490 浏览

python - Python NLTK 可视化

我目前正在使用 python NLTK 进行自然语言处理。我想生成一些漂亮的输入表示图形。我可以做些什么来得到这样的东西？

python nltk nltk-trainer

2017-02-24T00:15:53.947

0 投票

1 回答

67 浏览

python - 对负面评论进行“pos”测试

好的，所以我训练了一个 NaiveBayes 电影评论分类器……但是，当我针对负面评论（从我复制并粘贴到 txt 文件中的网站）运行它时，我得到了“pos”……我做错了什么吗？下面是代码：

更新多次重新运行程序后，它现在准确地将我的负面评论归类为负面......有人可以帮我理解为什么吗？或者这是普通的巫术？

python nlp nltk document-classification nltk-trainer

2017-03-01T05:18:36.857

0 投票

1 回答

926 浏览

python - NLTK 朴素贝叶斯分类器训练问题

我正在尝试为推文训练分类器。然而，问题在于它说分类器具有 100% 的准确度，而信息量最大的特征列表没有显示任何内容。有谁知道我做错了什么？我相信我对分类器的所有输入都是正确的，所以我不知道哪里出了问题。

这是我正在使用的数据集：http: //thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip

这是我的代码：

python nltk sentiment-analysis naivebayes nltk-trainer

2017-04-04T20:00:34.903

0 投票

1 回答

428 浏览

python - Python 2.x - 如何通过 trainSet 和 testSet 获得 NLTK 朴素贝叶斯分类的结果

我正在构建一个文本解析器来识别包含文本的犯罪类型。我的课程旨在加载 2 个 csv 文件的文本（一个文件用于训练，一个文件用于测试）。它的构建方式我的课程中的方法用于快速处理文本、删除停用词、提取特征向量等。按照下面的代码。

在 Main 上，我使用了普通的朴素贝叶斯并查看了它们的准确性，然后使用了带有交叉验证的朴素贝叶斯并查看了它们的准确性。现在我想测试已经在包含测试文本的 CSV 上训练的朴素贝叶斯。以防万一，在测试的基础上测试排序。

我的方法def classificaTexto(tweet):。这只是为了完成这项工作，但我什至无法将它与已经训练过的分类器一起使用。如果我创建一个文本为

该方法将完成其工作和排序。

附加信息：我的 csv 是这样形成的。一个例子：其中文字前面的数字代表犯罪团队。这样做是为了可以使用该方法def classificaTexto(tweet):

python python-2.7 nltk naivebayes nltk-trainer

2017-04-10T13:55:32.437

0 投票

0 回答

347 浏览

python-2.7 - 带有 nltk_train 的 ImportError

我正在尝试使用 nltk-trainer ( https://github.com/japerk/nltk-trainer )。我设法使用命令（直接在 Anaconda 控制台中）训练了荷兰语标注器和分块器：

然后我运行一个小脚本来测试标记器和分块器：

这在 nltk-trainer-master 文件夹中运行良好，但是当我将脚本移动到其他位置时，我收到导入错误：

如何在不复制 nltk_trainer 文件夹的情况下在 nltk-trainer-master 文件夹之外进行这项工作？

（Python 2.7，nltk 3.2.1）

python-2.7 nltk importerror nltk-trainer

2017-04-20T08:29:14.283

0 投票

1 回答

76 浏览

nlp - 可以训练 NLTK 来检测句子中的“编造”名称吗？

我最近开始研究使用 NLTK 进行数据提取。虽然有几个示例和技术可以检测“真实”名称、位置等。但我还没有找到一种有效的方法来检测“虚构”或“虚构”名称。一个示例字符串是：

他的名字叫 wuzzywugg，他有一只名叫 fizzbuzz 的狗

我想训练 NLTK 能够检测到“wuzzywugg”和“fizzbuzz”是字符的名称。看到一些依赖以大写字母开头的单词的解决方案，但这感觉非常“hacky”并且容易出错和误报。

任何有关如何解决此问题的帮助将不胜感激。提前致谢。

nlp nltk nltk-trainer

2017-04-27T00:09:24.217

0 投票

2 回答

998 浏览

python - 使用 ngram 查找匹配的单词

数据集：

我有一个 python 文件（Categories.py），其中包含财产/土地特征的无监督分类。

要从 bigram 列和类别列表中查找匹配的单词：

运行上述代码时，我收到此错误：

在这方面需要帮助。

我想要的输出是：

python python-3.x pandas nltk nltk-trainer

2017-08-27T06:05:48.497

0 投票

1 回答

358 浏览

python - 如何处理字符之间有空格的单词？

我正在使用达nltk.word_tokenize里语。问题是我们在一个单词之间有空格。
例如"زنده گی"表示生命的词。和相同的; 我们还有很多别的词。所有以字符结尾的单词"ه"我们必须给它一个空格，否则，它可以组合，例如"زندهگی"。

任何人都可以帮助我使用[tag:regex]或任何其他方式不应该标记一个单词的一部分以结尾的单词，"ه"然后，就会有这个"گ "字符。

python regex nltk nltk-trainer nltk-book

2017-09-20T09:29:45.773

1 2 3 4 5 6 7 8 9 10