php - 使用 Diffbot 提取 HTML 内容

Question

有人可以帮我吗？我想从http://www.quranexplorer.com/Hadith/English/Index.html提取 html 数据。我找到了一个服务，它完全可以做到http://diffbot.com/dev/docs/他们通过一个简单的 api 支持数据提取，问题是我有大量需要处理的 url。以下链接http://test.deen-ul-islam.org/html/h.js

我需要创建一个遵循 url 的脚本，然后使用 api 生成 html 数据的 json 格式（该站点的 api 允许批量请求检查网站文档）

请注意，diffbot 每月只允许 10000 个免费请求，所以我需要一种方法来保存进度并能够从我离开的地方继续。

这是我使用 php 创建的示例。

$token = "dfoidjhku";// example token
$url = "http://www.quranexplorer.com/Hadith/English/Hadith/bukhari/001.001.006.html";
$geturl="http://www.diffbot.com/api/article?tags=1&token=".$token."&url=".$url;
$json = file_get_contents($geturl);
$data = json_decode($json, TRUE);
echo $article_title=$data['title'];
echo $article_author=$data['author'];
echo $article_date=$data['date'];
echo nl2br($article_text=$data['text']);
$article_tags=$data['tags'];
foreach($article_tags as $result) {
    echo $result, '<br>';
}

我不介意该工具是在 javascript 还是 php 中，我只需要一种方法来获取 json 格式的 html 数据。

score 2 · Accepted Answer

来自 Diffbot 的约翰在这里。注意：不是开发人员，但足够了解编写 hacky 代码来做简单的事情。

你有一个链接列表——遍历这些链接应该很简单，为每个链接打电话给我们。

这是一个执行此操作的 Python 脚本：https ://gist.github.com/johndavi/5545375

我在 Sublime Text 中使用快速搜索正则表达式从 JS 文件中提取链接。

要截断它，只需剪掉一些链接，然后运行它。这需要一段时间，因为我没有使用 Batch API。

如果您需要改进或改变这一点，最好直接寻找更强大的开发人员。Diffbot 是一个对开发人员友好的工具。

php - 使用 Diffbot 提取 HTML 内容

1 回答 1

Related

Reference