0

我使用文章提取器从博客中提取数据,它以字符串格式返回文章。由于某些页面具有进入新闻内容的子链接,因此我也希望提取该数据。那么,如何访问子链接内的数据呢?我的代码是这样的:

String news =" ";
try
{                   
    URL url;
    url = new URL("http://www.firstpost.com/tag/crime-in-india");
    InputSource is = HTMLFetcher.fetch(url).toInputSource();        
    BoilerpipeSAXInput in = new BoilerpipeSAXInput(is);
    TextDocument doc = in.getTextDocument();        
    news = ArticleExtractor.INSTANCE.getText(doc);
}
4

2 回答 2

0
import net.sf.json.xml.XMLSerializer;


XMLSerializer xmlSerializer = new XMLSerializer(); 
JSON json = xmlSerializer.read( news );  
于 2014-01-25T16:34:52.907 回答
0

检查构建路径中的库导入 - 特别是在 Eclipse 中

我在 2 个单独的项目中遇到了这个问题,结果发现我在 json-lib-2.4-jdk15.jar 中有旧版本的 net.sf.json 库(也有旧版本)

于 2015-12-04T14:43:43.683 回答