0

是否有规则、框架或工具集用于使用来自 html 页面的信息作为输入数据的一部分进行编程?类似于元搜索引擎的东西。你如何解析网页?

我更喜欢 java 或 flex/flash,或者一些阅读的指针。

谢谢!

2013 年 2 月 7 日更新

谢谢您的回答!网络抓取是我一直在寻找的术语!

从这篇文章Web scraping with Java中找到了这个很棒的 java 库: http: //jsoup.org/

正在寻找 flex 的,我一找到它就会更新。

4

1 回答 1

0

我认为您的问题对于获得好的答案有点含糊,而且我自己没有 Java/Flex 经验,但是大多数语言都有库支持向相关资源发出 HTTP 请求(并且很可能是某种支持将 HTML/XML 解析为某种数据结构,您可以从中提取数据。)

根据您试图摆脱它的方式,您可能只需要对 HTTP 响应进行简单的字符串搜索即可找到所需的内容。这基本上是@pablochan 在建议关于网络抓取的 wiki 页面时所推荐的。

请注意,某些服务/网站旨在混淆您尝试对其数据进行页面抓取的尝试,并且可能确实将此类行为列为违反其服务条款的行为。如果您成功执行此操作但过于频繁,您可能会发现您的 IP 被阻止或采取了其他类型的措施来阻止您这样做。

大多数静态站点不会有这样的保护,但大型服务可能会很好。

于 2013-01-31T17:08:00.173 回答