我不确定如何定义它,但基本上我想从给定的 URL 中检索相关的图像和文本摘要。
例如 - 当用户将链接粘贴到 Facebook 上的共享框时,它会立即从文章本身和相关图像中获取文章标题和/或短文本块。它永远不会得到错误的图像,例如网站的徽标或文章本身周围的文字......
Google+ 和其他类似的社交网络或服务也是如此。
我首先假设我需要使用以下代码阅读页面内容,我如何确定哪个图像是相关的(来自文章正文)以及哪个文本是文章文本?
URL oracle = new URL("http://www.oracle.com/");
BufferedReader in = new BufferedReader(
new InputStreamReader(oracle.openStream()));
String inputLine;
while ((inputLine = in.readLine()) != null)
System.out.println(inputLine);
in.close();
我当然不是在这里要求代码(除非有人例如有一个片段并且愿意分享),而是更多关于如何处理这个......我从哪里开始?
任何帮助将不胜感激!