目前,我正在尝试创建一个 csv 文件,其中包含 NBC 的“朋友”的字幕及其相应的开始时间。所以基本上我正在尝试将 srt 文件转换为 python 中的 csv 文件。
对于那些不熟悉 srt-files 的人来说,它们看起来像这样:
1
00:00:47,881 --> 00:00:49,757
[CAR HORNS HONKING]
2
00:00:49,966 --> 00:00:52,760
There's nothing to tell.
It's just some guy I work with.
3
00:00:52,969 --> 00:00:55,137
Come on.
You're going out with a guy.
…
现在我习惯readlines()
把它变成这样的列表:
['\ufeff1\n', '00:00:47,881 --> 00:00:49,757\n', '[CAR HORNS HONKING]\n',
'\n', '2\n', '00:00:49,966 --> 00:00:52,760\n',
"There's nothing to tell.\n", "It's just some guy I work with.\n",
'\n', '3\n', '00:00:52,969 --> 00:00:55,137\n', 'Come on.\n',
"You're going out with a guy.\n", ...]
有没有办法从这个列表(或它所基于的文件)创建一个包含开始时间(不需要结束时间)和属于它的行的字典或数据框。我一直在苦苦挣扎,因为虽然有时只有一行对应于开始时间,但有时有两行(此文件中每个开始时间最多有两行。但是,可以在更多行的情况下使用的解决方案现在会更好)。
看起来像第一个的行(“[CAR HORNS HONKING]”)或其他简单地说例如“CHANDLER:”的行,理想情况下不包括它们的开始时间,但现在这并不是那么重要。
很感谢任何形式的帮助!