0

目前,我正在尝试创建一个 csv 文件,其中包含 NBC 的“朋友”的字幕及其相应的开始时间。所以基本上我正在尝试将 srt 文件转换为 python 中的 csv 文件。

对于那些不熟悉 srt-files 的人来说,它们看起来像这样:

1
00:00:47,881 --> 00:00:49,757
[CAR HORNS HONKING]

2
00:00:49,966 --> 00:00:52,760
There's nothing to tell.
It's just some guy I work with.

3
00:00:52,969 --> 00:00:55,137
Come on.
You're going out with a guy.

…

现在我习惯readlines()把它变成这样的列表:

['\ufeff1\n', '00:00:47,881 --> 00:00:49,757\n', '[CAR HORNS HONKING]\n',
'\n', '2\n', '00:00:49,966 --> 00:00:52,760\n',
"There's nothing to tell.\n", "It's just some guy I work with.\n",
'\n', '3\n', '00:00:52,969 --> 00:00:55,137\n', 'Come on.\n',
"You're going out with a guy.\n", ...]

有没有办法从这个列表(或它所基于的文件)创建一个包含开始时间(不需要结束时间)和属于它的行的字典或数据框。我一直在苦苦挣扎,因为虽然有时只有一行对应于开始时间,但有时有两行(此文件中每个开始时间最多有两行。但是,可以在更多行的情况下使用的解决方案现在会更好)。

看起来像第一个的行(“[CAR HORNS HONKING]”)或其他简单地说例如“CHANDLER:”的行,理想情况下不包括它们的开始时间,但现在这并不是那么重要。

很感谢任何形式的帮助!

4

1 回答 1

1

我认为这段代码涵盖了您的问题。主要思想是使用正则表达式来定位每个图例的开始时间并提取其值和对应的行。代码不是最优美的形式,但我认为主要思想表达得很好。我希望它有所帮助。

import re

with open('sub.srt', 'r') as h:
    sub = h.readlines()

re_pattern = r'[0-9]{2}:[0-9]{2}:[0-9]{2},[0-9]{3} -->'
regex = re.compile(re_pattern)
# Get start times
start_times = list(filter(regex.search, sub))
start_times = [time.split(' ')[0] for time in start_times]
# Get lines
lines = [[]]
for sentence in sub:
    if re.match(re_pattern, sentence):
        lines[-1].pop()
        lines.append([])
    else:
        lines[-1].append(sentence)
lines = lines[1:]         

# Merge results
subs = {start_time:line for start_time,line in zip(start_times, lines)}
于 2018-12-03T00:47:56.980 回答