所以我有一些看起来像这样的文本文档:
1a Title
Subtitle
Description
1b Title
Subtitle A
Description
Subtitle B
Description
2 Title
Subtitle A
Description
Subtitle B
Description
Subtitle C
Description
我正在尝试使用正则表达式捕获由 3 个制表符缩进的“描述”行。我遇到的问题是有时描述行会换行到下一行并再次缩进 3 个制表符。这是一个例子:
1 Demo
Example
This is the description text body that I am
trying to capture with regex.
我想在一组中捕获此文本,最终得到:
This is the description text body that I am trying to capture with regex.
一旦我能够做到这一点,我还想“展平”文档,使每一部分在一行上由字符而不是行和制表符分隔。所以我的示例代码将变为:
1->Demo->->Example->->->This is the description text...
我将在 Python 中实现这一点,但任何正则表达式指导将不胜感激!
UPTADE
我已经更改了扁平文本中的分隔符以表明它是以前的关系。IE; 1 个选项卡->
、2 个选项卡->->
、3 个选项卡->->->
等等。
此外,如果每个标题(部分)有多个字幕(子部分),则扁平化文本的外观如下:
1a->标题->->副标题->->->描述
1b->标题->->副标题 A->->->描述
1b->标题->->副标题 B->->->描述
2->标题->->副标题A->->->描述
2->标题->->副标题B->->->描述
2->标题->->副标题C->->->描述
基本上只是为每个孩子(字幕)“重用”父母(数字/标题)。