我正在尝试使用 Python 将字符串分成更小的部分。各种情况可以是:
str1 = "Hello world。这是一个理想的示例字符串。"
结果:世界你好。
这是一个理想的示例字符串。
str2 = " <H1>
Hello world。</H1><P>
这是一个 HTML 示例字符串。<P>
"
结果:
<H1>
Hello world。</H1>
<P>
这是一个 HTML 示例字符串。<P>
str3 = "1. Hello World. 2. 这是一个字符串。"
结果:
1. Hello World。
2. 这是一个字符串。
这是我的代码。但我似乎无法实现第二种情况:
import re
string = """<h1>This is a string.</h1><a href="www.abc.com"> This is another part. <P/>"""
segment_regex = re.compile(r"""
(
\r\n|
\\r\\n|
\n|
\\n|
\r|
\\r|
\t|
\\t|
(?:
(?<=[^\d][\.|\!|\?])
\s+
(?=[A-Z0-9])
)|
(?:
(?<=[\.|\!|\?])\s*(?=<.*?>)
)
)
""", re.VERBOSE)
seg = segment_regex.split(string)
segments = seg[::2]
separator = seg[1::2]
print("Segments are ---->>")
for s in segments:
print (s)
print("Separators are ---->>")
for p in separator:
print (p)