问题标签 [nltk-trainer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 带有负例的 NLTK MaxentClassifier 训练
我是 nltk 图书馆的新手,我尝试用我自己的语料库教我的分类器一些标签。
为此,我有一个带有 IOB 标签的文件,如下所示:
我这样做:
它有效。
如何训练我classifier
的负面案例?
我会有类似的带有 IOB 标签的文件,并且我会指定这个文件设置错误。(负重)
我怎样才能做到这一点?
否定情况的示例是:
在那之后,我希望记住 How 可能不是 MYTag... 这样做的原因是,分类器学习得更快。
如果我可以只输入语句,程序会处理它,最后问我是否对结果满意。如果是,则此文本将添加到 . train_set
,否则将添加到negative_train_set
.
这样,教分类器正确的东西会更容易和更快。
python - 如何在 nltk 中将自定义语料库添加到本地计算机
我有一个自定义语料库,它使用我需要进行一些分类的数据创建。我有与 movie_reviews 语料库包含的格式相同的数据集。根据 nltk 文档,我使用以下代码访问 movie_reviews 语料库。无论如何,是否可以将任何自定义语料库添加到 nltk_data/corpora 目录并访问该语料库,就像我们访问现有语料库一样。
python - 对负面评论进行“pos”测试
好的,所以我训练了一个 NaiveBayes 电影评论分类器……但是,当我针对负面评论(从我复制并粘贴到 txt 文件中的网站)运行它时,我得到了“pos”……我做错了什么吗?下面是代码:
更新多次重新运行程序后,它现在准确地将我的负面评论归类为负面......有人可以帮我理解为什么吗?或者这是普通的巫术?
python - NLTK 朴素贝叶斯分类器训练问题
我正在尝试为推文训练分类器。然而,问题在于它说分类器具有 100% 的准确度,而信息量最大的特征列表没有显示任何内容。有谁知道我做错了什么?我相信我对分类器的所有输入都是正确的,所以我不知道哪里出了问题。
这是我正在使用的数据集:http: //thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip
这是我的代码:
python - Python 2.x - 如何通过 trainSet 和 testSet 获得 NLTK 朴素贝叶斯分类的结果
我正在构建一个文本解析器来识别包含文本的犯罪类型。我的课程旨在加载 2 个 csv 文件的文本(一个文件用于训练,一个文件用于测试)。它的构建方式我的课程中的方法用于快速处理文本、删除停用词、提取特征向量等。按照下面的代码。
在 Main 上,我使用了普通的朴素贝叶斯并查看了它们的准确性,然后使用了带有交叉验证的朴素贝叶斯并查看了它们的准确性。现在我想测试已经在包含测试文本的 CSV 上训练的朴素贝叶斯。以防万一,在测试的基础上测试排序。
我的方法def classificaTexto(tweet):
。这只是为了完成这项工作,但我什至无法将它与已经训练过的分类器一起使用。如果我创建一个文本为
该方法将完成其工作和排序。
附加信息:我的 csv 是这样形成的。一个例子:其中文字前面的数字代表犯罪团队。这样做是为了可以使用该方法def classificaTexto(tweet):
python-2.7 - 带有 nltk_train 的 ImportError
我正在尝试使用 nltk-trainer ( https://github.com/japerk/nltk-trainer )。我设法使用命令(直接在 Anaconda 控制台中)训练了荷兰语标注器和分块器:
然后我运行一个小脚本来测试标记器和分块器:
这在 nltk-trainer-master 文件夹中运行良好,但是当我将脚本移动到其他位置时,我收到导入错误:
如何在不复制 nltk_trainer 文件夹的情况下在 nltk-trainer-master 文件夹之外进行这项工作?
(Python 2.7,nltk 3.2.1)
nlp - 可以训练 NLTK 来检测句子中的“编造”名称吗?
我最近开始研究使用 NLTK 进行数据提取。虽然有几个示例和技术可以检测“真实”名称、位置等。但我还没有找到一种有效的方法来检测“虚构”或“虚构”名称。一个示例字符串是:
他的名字叫 wuzzywugg,他有一只名叫 fizzbuzz 的狗
我想训练 NLTK 能够检测到“wuzzywugg”和“fizzbuzz”是字符的名称。看到一些依赖以大写字母开头的单词的解决方案,但这感觉非常“hacky”并且容易出错和误报。
任何有关如何解决此问题的帮助将不胜感激。提前致谢。
python - 使用 ngram 查找匹配的单词
数据集:
我有一个 python 文件(Categories.py),其中包含财产/土地特征的无监督分类。
要从 bigram 列和类别列表中查找匹配的单词:
运行上述代码时,我收到此错误:
在这方面需要帮助。
我想要的输出是:
python - 如何处理字符之间有空格的单词?
我正在使用达nltk.word_tokenize
里语。问题是我们在一个单词之间有空格。
例如"زنده گی"
表示生命的词。和相同的; 我们还有很多别的词。所有以字符结尾的单词"ه"
我们必须给它一个空格,否则,它可以组合,例如"زندهگی"
。
任何人都可以帮助我使用[tag:regex]
或任何其他方式不应该标记一个单词的一部分以结尾的单词,"ه"
然后,就会有这个"گ "
字符。