问题标签 [textblob]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3144 浏览

python - 如何保存分类器 textblob NaiveBayesClassifier 的结果?

我正在NaiveBayesclassifier根据我选择的给定主题使用 TextBlob 进行文本分析。

数据很大(大约 3000 个条目)。

尽管我能够得到结果,但如果不再次调用该函数并等待数小时直到处理完成,我就无法将其保存以备将来使用。

我尝试通过以下方法进行酸洗

我得到一个错误,如下所示:

我也尝试过使用 sPickle,但它也导致了以下错误:

谁能告诉我我必须做些什么来保存对象?

或者无论如何保存分类器的结果以供将来使用?

0 投票
5 回答
18110 浏览

python - 在 windows 中安装 TextBlob

我已按照在Windows 7 中安装 TextBlob for Python 的麻烦中的说明进行操作。它已安装,但是当我转到 Python Idle 并键入import TextBlob时说

没有名为 TextBlob 的模块

如何解决这个问题呢?

或者我可以直接将包关联的库放在Python Lib文件夹中,并尝试在程序中导入?如果建议这样做,请告诉程序这样做。它会起作用吗?

任何帮助将不胜感激。

0 投票
0 回答
1418 浏览

python - python中的词干、词形还原

我检查了所有其他路径并使用了一些解决方案。我在使用端口词干分析器方面面临挑战。我正在尝试消除词缀,但是端口词干分析器将单词简化为一些奇怪的形式,例如语言变成了语言,强化变成了拼写不正确的强化。

我必须使用我正在使用 TextBlob 的单词来搜索句子。下面是我正在使用的代码。我从链接中提取了文本:http ://www.nltk.org/book/ch03.html 。我使用 porterstemmer 和 wordnetlemmatizer 搜索了语言。Wordnetlemma 仅将复数简化为单数。

0 投票
1 回答
881 浏览

python - 使用python进行文本搜索

我正在从事一个文本搜索项目,并使用文本 blob 从文本中搜索句子。TextBlob 有效地提取所有带有关键字的句子。但是,为了进行有效的研究,我还想在之前和之后提取一个句子,我无法弄清楚。

下面是我正在使用的代码:

0 投票
1 回答
411 浏览

python - 使用python创建词形

如何使用 Python 获得不同的单词形式。我想创建一个如下列表。

我的代码:

0 投票
2 回答
1889 浏览

python - 将 POS 标签从 TextBlob 转换为 Wordnet 兼容的输入

我正在使用 Python 和 nltk + Textblob 进行一些文本分析。有趣的是,您可以为 wordnet 添加 POS 以使您对同义词的搜索更加具体,但不幸的是,nltk 和 Textblob 中的标记与 wordnet 对其同义词集类所期望的输入类型不“兼容”。

示例 Wordnet.synsets() 要求您给它的 POS 是 n、v、a、r 之一,就像这样

但是来自 upenn_treebank 的标准 POS 标记看起来像

所以我正在寻找一种在两者之间进行转换的好方法。

除了蛮力之外,有谁知道实现这种转换的好方法?

0 投票
1 回答
797 浏览

python - 用 Python 模式包中的同义词替换

我的目标是创建一个系统,该系统将能够获取任何随机文本、提取句子、删除标点符号,然后在裸句(其中一个)上随机替换 NN 或 VB 标记的单词及其 meronym、holonym 或同义词以及来自 WordNet 同义词的相似词。前面还有很多工作要做,但我一开始就有问题。

为此,我使用模式和 TextBlob 包。这是我到目前为止所做的......

现在一切都按我想要的方式工作,但是当我尝试从这个变量中提取 ie 下位词时,djidja它被证明是不可能的,因为它是一个Synset对象,而且我无论如何都无法操纵它。

知道如何提取下义词列表中报告的单词(即print(djidja[2])显示Synset(u'bowler')...所以如何仅从中提取'bowler')?

0 投票
0 回答
345 浏览

python - 如何停止推文流式传输?

它似乎忽略了该if self.i >5:声明(我已经删除了我的密钥)。推文应该在几条推文后停止流式传输,但会持续流式传输,直到程序停止。我已经尝试过sys.exit()并最终返回工作。

0 投票
1 回答
2296 浏览

python - 在 Pyspark-Cluster 模式下在工作节点上安装外部库

我正在研究用于 NLP 处理等的 pyspark。我正在使用 TextBlob Python 库。

通常,在独立模式下,很容易安装外部 Python 库。在集群模式下,我面临在工作节点上远程安装这些库的问题。我无法访问每台工作机器以在 Python 路径中安装这些库。

我尝试使用 Sparkcontext pyfiles 选项来发送.zip文件……但问题是这些 Python 包需要安装在工作机器上。

是否有不同的方法可以使这个 lib-Textblob 在 Python 路径中可用?

0 投票
1 回答
165 浏览

python - 训练两个特征而不是一个

我有这个代码。我有两个特点。如何一起训练这两个特征?

这是我得到的输出。

word_before_you = 'do' 裁判:generi = 2.2:1.0
word_before_you = 'when'generi:裁判 = 1.1:1.0

它似乎只获得了最后一个功能。如何让分类器训练两个特征而不是一个。