我一直在 rubyforge 上查看 XML 和 HTML 库,以寻找一种从网页中提取数据的简单方法。例如,如果我想在 stackoverflow 上解析用户页面,如何将数据转换为可用格式?
假设我想解析我自己的用户页面以获取我当前的声誉分数和徽章列表。我试图将从我的用户页面检索到的源转换为 xml,但由于缺少 div,转换失败。我知道我可以进行字符串比较并找到我正在寻找的文本,但必须有更好的方法来做到这一点。
我想将其合并到一个简单的脚本中,该脚本在命令行中输出我的用户数据,并可能将其扩展为 GUI 应用程序。