Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
什么更快?我刚刚制作了一个使用 HTML Agility 包的网络爬虫,它消耗了大量内存。
使用内存分析器对其进行分析,我发现 HTMLDocument、HTMLNode 等实例占用了最多的内存。
我觉得使用正则表达式可能会更快,更有效,我错了吗?
根据您的具体操作,确实可以使用正则表达式加快速度并释放一些内存。问题是 - 您从中提取数据的页面有多严格和格式良好。正则表达式更容易被您可能在野外遇到的完全有效但出乎意料的 HTML 构造所混淆。
reg-ex 将比 html agilty pack 快得多。
但是您应该记住,html 不必总是格式正确。仅使用 reg-ex 搜索您想要的正确数据可能会失败。浏览器对错误非常宽容。
敏捷包是一个很棒的工具。它为消耗的内存提供了许多功能。
我知道这类问题有一些解决方案,并为这个问题应用了一些解决方案,但我无法解决,我很困惑。请帮我。这是代码:
protected String doInBackground(Boolean... params) {