我有一个包含大约 2000 行的文件,例如:
<nobr> <a href="../Carbon_Monoxide_Poisoning_Prevention.htm"><b>poisoning - prevention</b></a></nobr><br>
<nobr> <a href="../Carbon_Monoxide_Symptoms.htm"><b>symptoms</b></a></nobr><br>
1.) URL 始终采用以下形式../foo.html
2.) 显示名称有时会用<b> ... </b>
标签括起来,有时则不会。
3.)文件中的每一行最多包含四个
我需要计算和标记为空格的行。这些最终将用于格式化缩进,所以我需要以某种方式捕获信息。
我需要在分隔的平面文件中包含超链接、显示名称和空格数名称,如下所示(基于上述数据):
../Carbon_Monoxide_Poisoning_Prevention.htm,poisoning - prevention,4
../Carbon_Monoxide_Symptoms.htm,symptoms,4
. 虽然我可以通过一堆乱七八糟的字符串、子字符串和 if 语句来解析它,但这似乎比它需要的更麻烦。我正在研究正则表达式(我第一次这样做),但对某些语法有点不清楚;我最好看到与我的应用程序类似的代码示例,但无法找到任何非常适合的示例。
任何帮助,将不胜感激!