我已经编写了必要的代码来解析一个目录并找到所有的 html 文件。但是,我需要解析每个文件以获取必要的信息。我需要提取每个故事的故事标题、作者、类别、章节数、来源和摘要,并将它们添加到数据库中的正确字段中。每个 html 文件都以相同的方式设置。如果可能的话,我也想为每个故事计算字数。字数将是每个 CHAPTER TEXT 区域中所有单词的总和。下面是每个 html 文件的编写方式的概要。请让我知道实现这一目标的最佳方法。
<html>
<head>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=UTF-8">
<meta name="author" content="AUTHOR">
<title>AUTHOR: TITLE</title>
</head>
<body>
<br/><br/>
<div style="text-align:center">
<h1>TITLE</h1>
</div>
<b>Story:</b> TITLE<br>
<b>Storylink:</b> <a href="URL">URL
<b>Category:</b> CATEGORY<br>
<b>Author:</b> AUTHOR<br/>
<b>Last updated:</b> 10/16/2011<br/>
<b>Status:</b> STATUS<br/>
<b>Content:</b> Chapter 1 to 16 of 16 chapters<br/>
<b>Source:</b> SOURCE<br><br>
<b>Summary:</b> SUMMARY
<!--CHAPTERAREA START-->
<h2 class=chapterffdl>*Chapter 1*: Chapter 1</h2>
CHAPTER TEXT CHAPTER TEXT CHAPTER TEXT
<h2 class=chapterffdl>*Chapter 2*: Chapter 2</h2>
CHAPTER TEXT CHAPTER TEXT CHAPTER TEXT
...
<!--CHAPTERAREA STOP-->
</body>
</html>