我正在使用 json2csv.py(使用 twarc 编译)从 JSONL 文件中提取额外字段,并且无法提取数组中保存的一些文本字段。这是数组,我希望能够只提取主题标签文本。
"entities": {
"hashtags": [
{
"text": "NoJusticeNoPeace",
"indices": [
65,
82
]
},
{
"text": "justiceforNaledi",
"indices": [
83,
100
]
},
我可以使用此代码添加其他没有数组的字段:
python json2csv.py tweets_may.jsonl -e full_text retweeted_status.extended_tweet.full_text > testfull_text.csv
但是,我不知道如何拉出数组或其中的元素。可以使用以下retweeted_status.extended_tweet.entities.hashtags.0.text
我尝试使用的方法来识别单个主题标签文本:
python json2csv.py tweets_may.jsonl -e all_hashtags retweeted_status.extended_tweet.entities.hashtags.0.text > testhash.csv
但这只是返回一个空列。理想情况下,我希望能够将“标签”数组中所有出现的“文本”提取到单个列或单独的列中。