java - 使用来自 html 页面的信息作为输入数据的一部分进行编程？

Question

是否有规则、框架或工具集用于使用来自 html 页面的信息作为输入数据的一部分进行编程？类似于元搜索引擎的东西。你如何解析网页？

我更喜欢 java 或 flex/flash，或者一些阅读的指针。

谢谢！

2013 年 2 月 7 日更新

谢谢您的回答！网络抓取是我一直在寻找的术语！

从这篇文章Web scraping with Java中找到了这个很棒的 java 库： http: //jsoup.org/。

正在寻找 flex 的，我一找到它就会更新。

score 0 · Accepted Answer

我认为您的问题对于获得好的答案有点含糊，而且我自己没有 Java/Flex 经验，但是大多数语言都有库支持向相关资源发出 HTTP 请求（并且很可能是某种支持将 HTML/XML 解析为某种数据结构，您可以从中提取数据。）

根据您试图摆脱它的方式，您可能只需要对 HTTP 响应进行简单的字符串搜索即可找到所需的内容。这基本上是@pablochan 在建议关于网络抓取的 wiki 页面时所推荐的。

请注意，某些服务/网站旨在混淆您尝试对其数据进行页面抓取的尝试，并且可能确实将此类行为列为违反其服务条款的行为。如果您成功执行此操作但过于频繁，您可能会发现您的 IP 被阻止或采取了其他类型的措施来阻止您这样做。

大多数静态站点不会有这样的保护，但大型服务可能会很好。

1 回答 1