我正在使用 pyLDAvis 在 Python 中编写一个文本分析脚本,并且我正在尝试将其中一个输出清理为更清晰、更易于阅读的内容。返回 4 个主题的前 5 个重要单词的函数是一个如下所示的列表:
[(0, '0.008*"de" + 0.007*"sas" + 0.004*"la" + 0.003*"et" + 0.003*"see"'),
(1,
'0.009*"sas" + 0.004*"de" + 0.003*"les" + 0.003*"recovery" + 0.003*"data"'),
(2,
'0.007*"sas" + 0.006*"data" + 0.005*"de" + 0.004*"recovery" + 0.004*"raid"'),
(3,
'0.019*"sas" + 0.009*"expensive" + 0.008*"disgustingly" + 0.008*"cool." + 0.008*"houses"')]
理想情况下,我想把它变成一个数据框,其中第一行包含每个主题的第一个单词,以及相应的分数,列代表单词及其分数,即:
r1col1 是“de”,r1col2 是 0.008,r1col3 是“sas”,r1col4 是 0.009,等等。
有没有办法提取列表的内容并在给定格式的情况下分离值?