TL;DR 如果 Pandas DataFrame 中加载的字段本身包含 JSON 文档,如何以类似 Pandas 的方式使用它们?
目前,我直接将 Twitter 库(twython)中的 json/dictionary 结果转储到 Mongo 集合(此处称为 users)中。
from twython import Twython
from pymongo import MongoClient
tw = Twython(...<auth>...)
# Using mongo as object storage
client = MongoClient()
db = client.twitter
user_coll = db.users
user_batch = ... # collection of user ids
user_dict_batch = tw.lookup_user(user_id=user_batch)
for user_dict in user_dict_batch:
if(user_coll.find_one({"id":user_dict['id']}) == None):
user_coll.insert(user_dict)
填充此数据库后,我将文档读入 Pandas:
# Pull straight from mongo to pandas
cursor = user_coll.find()
df = pandas.DataFrame(list(cursor))
这就像魔术一样工作:
我希望能够破坏“状态”字段 Pandas 样式(直接访问属性)。有办法吗?
编辑:像 df['status:text'] 这样的东西。状态具有诸如“文本”、“已创建_at”之类的字段。一个选项可能是扁平化/规范化这个 json 字段,就像Wes McKinney 正在处理的这个拉取请求一样。