对于我实验室的一个项目,我正在分析 Twitter 数据。我们捕获的推文中都有“性”一词,这是我们过滤 TwitterStreamer 以捕获的关键字。
我将所有推文数据(json 元标记)都存放在 pandas 数据库中的 CSV 进行了转换,并保存了“文本”列以隔离推文文本。
import pandas as pd
import csv
df = pd.read_csv('tweets_hiv.csv')
saved_column4 = df.text
print saved_column4
输出正确的输出:
0 Some example tweet text
1 Oh hey look more tweet text @things I hate #stuff
...a bunch more lines
Name: text, Length: 8540, dtype: object
但是,当我尝试这个
from textblob import TextBlob
tweetstr = str(saved_column4)
tweets = TextBlob(tweetstr).upper()
print tweets.words.count('sex', case_sensitive=False)
我的输出是22
.
“sex”一词的出现次数应该至少与 CSV 中的行数一样多,而且可能更多。我无法弄清楚这里发生了什么。TextBlob 是否没有围绕 dtype:object 进行配置?