问题标签 [diffbot]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
2370 浏览

php - 使用 Diffbot 提取 HTML 内容

有人可以帮我吗?我想从http://www.quranexplorer.com/Hadith/English/Index.html提取 html 数据。我找到了一个服务,它完全可以做到http://diffbot.com/dev/docs/他们通过一个简单的 api 支持数据提取,问题是我有大量需要处理的 url。以下链接http://test.deen-ul-islam.org/html/h.js

我需要创建一个遵循 url 的脚本,然后使用 api 生成 html 数据的 json 格式(该站点的 api 允许批量请求检查网站文档)

请注意,diffbot 每月只允许 10000 个免费请求,所以我需要一种方法来保存进度并能够从我离开的地方继续。

这是我使用 php 创建的示例。

我不介意该工具是在 javascript 还是 php 中,我只需要一种方法来获取 json 格式的 html 数据。

0 投票
3 回答
154 浏览

regex - 正则表达式进行标记,然后获取任意标记

我对正则表达式不是很熟悉,遇到了一个我无法解决的问题。我想帮助我想出一个对字符串进行标记的表达式,然后让我得到所有东西,但从最后开始计数的任意标记。

例如,我想P037-077从以下字符串中获取所有内容

http://www.wayfair.com/George-Kovacs-by-Minka-Bling-Bling-1-Light-Wall-Sconce-P037-077-GKV1032.html

一种方法是开始倒数记号,分隔符为“-”(无法保证字符串所需部分左侧有多少记号)并获取第二个和第三个记号,然后得到一切,但那。

我得到了 90% 的表达式-([^-]*-[^-]*)-[^-]*$This 返回P037-077,但我需要得到它的补码。

不知道我解释的好不好。如果有任何不清楚的地方,我很乐意再次解释。

我知道这可以通过任何语言的标记轻松完成,但不幸的是我没有这样做的自由,因为我使用的工具只接受正则表达式作为输入。它使用 Java 语法。

0 投票
3 回答
7846 浏览

java - 从网页中提取文本(例如文章)的最佳方法

所以我正在尝试编写一个程序,它可以从不同的文章中收集某些信息并将它们组合起来。我遇到问题的步骤是从网页中提取文章。

我想知道您是否可以为从网页中提取文本的 java 库/方法提供任何建议?

我也发现了这个产品: http ://www.diffbot.com/products/automatic/article/ 想知道你是否认为这是要走的路?如果是这样,有人可以将我指向一个 java 实现 - 尽管它显然存在,但似乎找不到一个。

非常感谢

澄清 - 我更多的是寻找一种算法/库/方法来检测可能是一篇文章的文本块在 html dom 树中的位置。喜欢 Safari 的阅读器功能。ps如果您认为这在python之类的东西中更容易做到,那就说-尽管我的程序必须在Java中运行,因为它最终应该在服务器上运行(使用java框架)我可以尝试让它使用python脚本-尽管会仅当您建议 Python 是要走的路时才这样做。

0 投票
3 回答
407 浏览

python - python - 当限制超过python时如何更改api令牌?

我写了一个Diffbot API。它有 10,000 个调用和每秒 1 个调用。超过限制时我该怎么办?

0 投票
4 回答
1372 浏览

objective-c - 如何向此 API 提交 JSON 数组?

我正在尝试使用Diffbot将一些 URL 解析到相关的文章部分。他们有一个“Article API”,允许您一次提交一个链接并接收它,但为了速度,我更喜欢使用Batch API,它基本上允许您将一堆 Article API 请求提交到一个大请求中并得到一个大的回应,而不是一次一个。

以下是他们的文档中描述的 Batch API(奇怪的是在登录墙后面):

在此处输入图像描述

我这样提交给 Article API:

它运行良好。AFDiffbotClient是一个单例,结合起来AFNetworking可以帮助我更轻松地请求,而 URL 参数只是我正在查看的文章的 URL。(也许我可以在不手动创建 URL 的情况下做到这一点,如果有人可以提供提示,则可以加分。)

但是,使用 Batch API,您应该以 JSON 数组的形式提交(POST)这些请求。我很困惑我将如何去做这件事。


编辑:我在这方面做了更多工作,并取得了一些进展,但我收到了 400 错误。我不知道我做错了什么,但我必须走在正确的道路上。我正在使用我的令牌和我的 JSON 数组在 POST 请求中传递参数,但它仍然无法正常工作。

这是我得到的回复:

错误域 = AFNetworkingErrorDomain 代码 = -1011 “预期状态代码在 (200-299),得到 400” UserInfo = 0xc2ee4d0 {NSLocalizedRecoverySuggestion =,AFNetworkingOperationFailingURLRequestErrorKey = { URL:

之后就是我提交的所有 URL。

编辑 2:添加了上面 API 的图像。

编辑 3:当前无效的代码:

0 投票
1 回答
640 浏览

javascript - Diffbot 是否执行 JavaScript?

使用 Diffbot API 时,API 是在 HTML 加载后抓取通过 JS 添加的内容,还是 Diffbot 只看到立即可用的 HTML?

0 投票
1 回答
211 浏览

node.js - Diffbot API:“如何在 node.js 中使用 Diffbot 获取多个图像?”

我正在使用 Diffbot 的文章 API 从任何站点抓取文章。目前我正在获取带有单个图像的文章,但我想抓取特定文章的所有图像。任何建议将不胜感激。

0 投票
1 回答
104 浏览

javascript - Diffbot:“我可以在分析 API 中在哪里传递 stats 参数?”

我正在使用 Diffbot 分析 API 来检测页面类型,我想要这样的结果

但目前我正在变得这样

我必须在请求中传递“统计”参数。但是在请求的地方,我可以传递这个论点。谢谢,

0 投票
0 回答
96 浏览

web-crawler - Diifbot Product Api 版本 3 正在返回图像。但 PRODUCT API CRAWL 作业没有。如何在产品 api 抓取作业中获取图像?

Diifbot 产品 api 版本 3 正在返回图像。但是当我创建产品 api 抓取作业时,它不会返回任何图像。如何在产品 api 抓取作业中获取图像?

0 投票
1 回答
191 浏览

java - Diffbot URL 编码

我遇到了 diffbot url 编码问题。我有一个 URL,当我像这样调用 diffbot api 时我传递了 url。

但我收到有关 url 编码的错误消息。这是我收到的错误消息

{"errorCode":500,"error":"URL 编码"}

所以我像这样改变我的代码系统。

但它不能Diffbot像那样打印和打印

{“错误代码”:500,“错误”:“错误。”}。

diffbotAPI使用什么样的编码格式?