Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我注意到像 tika 这样的解析插件从内容中提取外链,但是在方法 getParse/2 中传递的对象 WebPage 已经有 2 个包含外链和内链的数组。
getParse 中的提取和 fetch 之后的提取有什么区别。
谢谢。
Webpage 对象是根据 nutch 数据库中的信息创建的,在我的例子中是 hsql。
在解析过程之后(在方法 getParse 返回之后)填充网页字段 outlinks(和其他一些)。