我想解析一个 html 页面并从中提取有意义的文本。任何人都知道一些好的算法来做到这一点?
我在 Rails 上开发我的应用程序,但我认为 ruby 在这方面有点慢,所以我认为如果在 c 中存在一些好的库,这将是合适的。
谢谢!!
PD:请不要用 java 推荐任何东西
更新:我找到了这个链接文本
可悲的是,在python中
我想解析一个 html 页面并从中提取有意义的文本。任何人都知道一些好的算法来做到这一点?
我在 Rails 上开发我的应用程序,但我认为 ruby 在这方面有点慢,所以我认为如果在 c 中存在一些好的库,这将是合适的。
谢谢!!
PD:请不要用 java 推荐任何东西
更新:我找到了这个链接文本
可悲的是,在python中
Lynx能够做到这一点。如果您想查看它,这是开源的。
您应该从文本中删除所有带尖括号的部分,然后折叠空格。理论上<
and>
在其他情况下不应该存在。页面包含<
和>
无处不在,而不是它们。
折叠空格:将所有 TAB、换行符等转换为空格,然后将每个空格序列替换为单个空格。
更新:你应该在找到<body>
标签后开始。