问题标签 [diffbot]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 使用 Diffbot 提取 HTML 内容
有人可以帮我吗?我想从http://www.quranexplorer.com/Hadith/English/Index.html提取 html 数据。我找到了一个服务,它完全可以做到http://diffbot.com/dev/docs/他们通过一个简单的 api 支持数据提取,问题是我有大量需要处理的 url。以下链接http://test.deen-ul-islam.org/html/h.js
我需要创建一个遵循 url 的脚本,然后使用 api 生成 html 数据的 json 格式(该站点的 api 允许批量请求检查网站文档)
请注意,diffbot 每月只允许 10000 个免费请求,所以我需要一种方法来保存进度并能够从我离开的地方继续。
这是我使用 php 创建的示例。
我不介意该工具是在 javascript 还是 php 中,我只需要一种方法来获取 json 格式的 html 数据。
regex - 正则表达式进行标记,然后获取任意标记
我对正则表达式不是很熟悉,遇到了一个我无法解决的问题。我想帮助我想出一个对字符串进行标记的表达式,然后让我得到所有东西,但从最后开始计数的任意标记。
例如,我想P037-077
从以下字符串中获取所有内容
http://www.wayfair.com/George-Kovacs-by-Minka-Bling-Bling-1-Light-Wall-Sconce-P037-077-GKV1032.html
一种方法是开始倒数记号,分隔符为“-”(无法保证字符串所需部分左侧有多少记号)并获取第二个和第三个记号,然后得到一切,但那。
我得到了 90% 的表达式-([^-]*-[^-]*)-[^-]*$
This 返回P037-077
,但我需要得到它的补码。
不知道我解释的好不好。如果有任何不清楚的地方,我很乐意再次解释。
我知道这可以通过任何语言的标记轻松完成,但不幸的是我没有这样做的自由,因为我使用的工具只接受正则表达式作为输入。它使用 Java 语法。
java - 从网页中提取文本(例如文章)的最佳方法
所以我正在尝试编写一个程序,它可以从不同的文章中收集某些信息并将它们组合起来。我遇到问题的步骤是从网页中提取文章。
我想知道您是否可以为从网页中提取文本的 java 库/方法提供任何建议?
我也发现了这个产品: http ://www.diffbot.com/products/automatic/article/ 想知道你是否认为这是要走的路?如果是这样,有人可以将我指向一个 java 实现 - 尽管它显然存在,但似乎找不到一个。
非常感谢
澄清 - 我更多的是寻找一种算法/库/方法来检测可能是一篇文章的文本块在 html dom 树中的位置。喜欢 Safari 的阅读器功能。ps如果您认为这在python之类的东西中更容易做到,那就说-尽管我的程序必须在Java中运行,因为它最终应该在服务器上运行(使用java框架)我可以尝试让它使用python脚本-尽管会仅当您建议 Python 是要走的路时才这样做。
python - python - 当限制超过python时如何更改api令牌?
我写了一个Diffbot API。它有 10,000 个调用和每秒 1 个调用。超过限制时我该怎么办?
objective-c - 如何向此 API 提交 JSON 数组?
我正在尝试使用Diffbot将一些 URL 解析到相关的文章部分。他们有一个“Article API”,允许您一次提交一个链接并接收它,但为了速度,我更喜欢使用Batch API,它基本上允许您将一堆 Article API 请求提交到一个大请求中并得到一个大的回应,而不是一次一个。
以下是他们的文档中描述的 Batch API(奇怪的是在登录墙后面):
我这样提交给 Article API:
它运行良好。AFDiffbotClient
是一个单例,结合起来AFNetworking
可以帮助我更轻松地请求,而 URL 参数只是我正在查看的文章的 URL。(也许我可以在不手动创建 URL 的情况下做到这一点,如果有人可以提供提示,则可以加分。)
但是,使用 Batch API,您应该以 JSON 数组的形式提交(POST)这些请求。我很困惑我将如何去做这件事。
编辑:我在这方面做了更多工作,并取得了一些进展,但我收到了 400 错误。我不知道我做错了什么,但我必须走在正确的道路上。我正在使用我的令牌和我的 JSON 数组在 POST 请求中传递参数,但它仍然无法正常工作。
这是我得到的回复:
错误域 = AFNetworkingErrorDomain 代码 = -1011 “预期状态代码在 (200-299),得到 400” UserInfo = 0xc2ee4d0 {NSLocalizedRecoverySuggestion =,AFNetworkingOperationFailingURLRequestErrorKey = { URL:
之后就是我提交的所有 URL。
编辑 2:添加了上面 API 的图像。
编辑 3:当前无效的代码:
javascript - Diffbot 是否执行 JavaScript?
使用 Diffbot API 时,API 是在 HTML 加载后抓取通过 JS 添加的内容,还是 Diffbot 只看到立即可用的 HTML?
node.js - Diffbot API:“如何在 node.js 中使用 Diffbot 获取多个图像?”
我正在使用 Diffbot 的文章 API 从任何站点抓取文章。目前我正在获取带有单个图像的文章,但我想抓取特定文章的所有图像。任何建议将不胜感激。
javascript - Diffbot:“我可以在分析 API 中在哪里传递 stats 参数?”
我正在使用 Diffbot 分析 API 来检测页面类型,我想要这样的结果
但目前我正在变得这样
我必须在请求中传递“统计”参数。但是在请求的地方,我可以传递这个论点。谢谢,
web-crawler - Diifbot Product Api 版本 3 正在返回图像。但 PRODUCT API CRAWL 作业没有。如何在产品 api 抓取作业中获取图像?
Diifbot 产品 api 版本 3 正在返回图像。但是当我创建产品 api 抓取作业时,它不会返回任何图像。如何在产品 api 抓取作业中获取图像?
java - Diffbot URL 编码
我遇到了 diffbot url 编码问题。我有一个 URL,当我像这样调用 diffbot api 时我传递了 url。
但我收到有关 url 编码的错误消息。这是我收到的错误消息
{"errorCode":500,"error":"URL 编码"}
所以我像这样改变我的代码系统。
但它不能Diffbot
像那样打印和打印
{“错误代码”:500,“错误”:“错误。”}。
diffbotAPI
使用什么样的编码格式?