1

我有一个巨大的文件,其中包括连续两天的转录演讲长度过长。我猜超过 100,000 字。

在转录过程中,我通过“<-- Name -->”标记将演讲者和会话分隔为不同的块。我的问题是,是否可以按照 name_speach.txt 的命名约定将它们自动处理成文件?

谢谢!!!!

测试用例:

测试用例

<--测试0-->
这个是一段测试内容,a quick fox jumps over a lazy dog.

<——测试1——&gt;
,a quick fox just over 啊 辣子 dog!!?是吗?

<——测试2——&gt;
这是一段测试用的text,嗯!

<--Test case 3-->
/* sound track lost @153:12.236 -- 153.18.222 */
…
A quick fox jumps over a {lazy|lame} dog.
4

1 回答 1

1

因此,您想在文本文件中搜索每个模式“<-- Name -->”(我认为 100000 个单词对于计算机内存来说并不是很大)。

您可以对搜索标签使用正则表达式。

在 Python 中,它类似于:

import re

NAMETAG = r'\<\-\- (?P<name>.*?) \-\-\>'

# find all nametags in your string
matches = re.findall(NAMETAG, yourtext)

offset_start_list = []
offset_end_list = []
name_list = []

for m in matches:
    name = m.groups()['name']
    name_list.append(name)

    # find content offset after name tag
    offset_start_list.append(m.end() + 1)

    # the last content's end
    offset_end_list.append(m.start())


offset_end_list.pop(0)
offset_end_list.append(len(yourtext))

for name, start, end in zip(name_list, offset_start_list, offset_end_list):
    # save your files here
于 2012-12-14T01:37:38.743 回答