或使用 BeautifulSoup
http://www.crummy.com/software/BeautifulSoup/bs4/doc/
编辑
我显然必须给你一些关于如何阅读文档的提示。
- 打开链接
- 左边有一个大菜单(蓝绿色)
- 如果您仔细看,您会发现文档分为多个部分
- 东西
- 在树中导航
- 搜索树
- 修改树(明白了)
- 输出(明白了!)
还有更多的东西
Beautiful Soup 是一个 Python 库,用于从 HTML 和 XML 文件中提取数据。它与您最喜欢的解析器一起使用,提供导航、搜索和修改解析树的惯用方式。它通常可以节省程序员数小时或数天的工作时间。
不要在第一句话之后停止阅读......最后一个非常重要,中间是什么。
换句话说,您可以创建一个空文档......让我们说:
soup = BeautifulSoup("<div></div>")
document = soup.div
然后你阅读你的每一行文字..然后只要你有文字就这样做。
document.append(line)
如果该行以 `*` 开头
ul = document.new_tag('ul')
document.append(ul)
document = ul
然后推送li
文档上的所有内容...一旦您最终阅读*
,只需弹出父级,以便文档返回到 div。并继续这样做......你甚至可以递归地插入ul
到ul
s.
一旦你解析了一切......你可以做
str(document)
或者
document.prettify()
编辑
刚刚意识到您不是在编辑html,而是在编辑未格式化的文本。然后您可以尝试使用markdown。
http://daringfireball.net/projects/markdown/