我正在尝试从文件中解析一些输入文本,这些文本最初是从 Twitter API 中获取的。该文件是纯文本,在这种情况下我实际上并没有抓取 JSON。这是输入文本的片段:
.....HootSuite</a>", "text": "For independent news reports on the crisis in #Japan,
see @DemocracyNow News Archive: http://ow.ly/4ht9Q
#nuclear #Fukushima #rdran #japon", "created_at": "Sat Mar 19.....
基本上我需要抓住这个:
"text": "For independent news reports "on" the crisis in #Japan, see @DemocracyNow
News Archive: http://ow.ly/4ht9Q #nuclear #Fukushima #rdran #japon"
这是我试图开始工作的两个,但我遇到了一些麻烦:
re.findall('"text":[^_]*',line)
re.findall('"text":[^:}]+',line)
第一个将允许我在我想要的部分之后抓取所有内容,直到“创建”。第二个也可以,但是当文本包含“:”时,它直到信息结束才会出现
有人对 RegEx 有一些经验,可以为我指明正确的方向吗?