问题标签 [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - ruby:从嵌套的 json 中提取字段
我正在尝试自学红宝石并解决工作中的问题。我的最终目标是从 API 中提取 JSON 响应的众多字段中的三个,操作并转储到 CSV 以进行执行报告。
JSON的结构是:
具体来说,我想提取dataPoint
, startOn
, ackedOn
.
我想我需要先提取总值,所以我知道我有多少警报。这将帮助我遍历警报实例。
我被困在试图提取总数。输出什么也不显示:
有一个更好的方法吗?
python - 使用 BeautifulSoup 提取特定数据
我想从这个片段中提取一些数据:
我只想提取212.19 MB
.
我已经提取了代码片段,soup.find('div', attrs={'id': 'information_content'})
但我不知道如何进一步深入以获得我需要的东西。
有人可以帮忙吗?
python - 如何在特定文件夹中搜索 .zip 文件,然后从其中的 .txt 文件中提取数据
重要信息:我在 Ubuntu (13.10) 中执行此操作,并且在此项目中不属于我的联盟,但推动我的知识是我喜欢学习的方式。
我想做一个程序,当它启动时运行一个脚本,该脚本扫描特定文件夹(etc/UIManager/saves)中的 .zip 文件,每个文件都包含一个名为“data.txt”的特定文本文件,然后获取数据在其中(UIname,Version,Compatibility)并将其放在单行水平表中
团结 | 3.2.5 | 13.10
我希望使用多个 .zip 文件完成此操作。每次启动程序时都会刷新这些列表。.zip 文件的名称不是预先确定的。
如果用户将这三个保存在文件夹中,这就是用户将在程序窗口中看到的内容(“|”只是用来分隔数据,不是必需的):
团结 | 3.2.5 | 13.10
KDE | 4.1.0 | 13.10
侏儒 | 3.5.7 | 13.10
文本文件看起来像这样,并且都命名为 data.txt:
用户名= x
版本 = 主要、次要、开发版本
兼容性=它们兼容的 Ubuntu 版本
我希望使用的语言最好是 Python 3,但任何 C 语言也可以。如果用另一种语言更容易或更实用,我愿意接受建议。看看我的主要目标是什么:http ://www.youtube.com/watch?v= mERSAYhN80U 我现在正在处理的部分是您在显示两个 UI 的第一个窗口中看到的内容
r - 波士顿数据集,基于值的多个过滤器
我是初学者。我正在使用 MASS 包中的波士顿数据集。我想应用过滤器来获取变量“chas”的值为 1 / TRUE 且变量“age”的值大于 50.0 的记录
我试过 :
我得到的结果是:0列35行的数据框
但是,我想要数据框中所有 chas 为真且年龄大于 50 的记录。
我可以使用哪些替代方法?以及如何将过滤扩展到 3 / 4 / 任意数量的变量。
php - 使用 PHP 抓取电子邮件
我有一个脚本应该从收件箱中删除选定的电子邮件。一切正常,除了身体。主题、日期、发件人等.. 被抓取没有问题,但正文返回如下:
VG9kYXkncyBGcmVlIGFuZCBCYXJnYWluIEJvb2tzCgpVcGRhdGUgUHJlZmVyZW5jZXM6ICBodHRw Oi8vd3d3LmJvb2tnb3JpbGxhLmNvbS9wcmVmZXJlbmNlcz9oPTZjNTgxNDEyYjkzMTdiMWZlNjc1 ZDcwNDFjODJhYTc5Ckludml0ZSBGcmllbmRzOiBodHRwOi8vd3d3LmJvb2tnb3JpbGxhLmNvbS9p bnZpdGU/aD02YzU4MTQxMmI5MzE3YjFmZTY3NWQ3MDQxYzgyYWE3OQpVbnN1YnNjcmliZTogaHR0 cDovL3d3dy5ib29rZ29yaWxsYS5jb20vdW5zdWJzY3JpYmU/aD02YzU4MTQxMmI5MzE3YjFmZTY3 NWQ3MDQxYzgyYWE3OQoKQWxsIHByaWNlcyB3ZXJlIHZlcmlmaWVkIGJ5IEJvb2tHb3JpbGxhIHBy aW9yIHRvIHRoaXMgZW1haWwgYmVpbmcgc2VudCwgYnV0IHByaWNlcyBtYXkgY2hhbmdlIHdpdGhv dXQgbm90aWNlIHNvIHBsZWFzZSB2ZXJpZnkgdGhhdCB0aGUgYm9vayBpcyBzdGlsbCBmcmVlIG9y IGJhcmdhaW4gcHJpY2VkIGJlZm9yZSBjb25maXJtaW5nIHlvdXIgb3JkZXIuIFNvbWUgYm9va3Mg bWF5IG5vdCBiZSBmcmVlIG91dHNpZGUgdGhlIFVuaXRlZCBTdGF0ZXMuIFdlIHdlbGNvbWUgeW91ciBmZWVkYmFjaywgc28gcGxlYXNlIHJlcGx5IHRvIHRoaXMgZW1haWwgaWYgeW91IGhhdmUgYW55 IGNvbW1lbnRzIG9yIHN1Z2dlc3Rpb25zIHlvdSB3b3VsZCBsaWtlIHRvIHNoYXJlIHdpdGggdXMu CgoKCi0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0t LS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0NCg0KRG9uJ3Qg bWlzcyB0aGlzIEJFU1QgUFJJQ0UgRVZFUiBvbiBEZWJiaWUgTWFjb21iZXIncyBjbGFzc2ljIERl Y2VtYmVyIDIwMTMgcmVsZWFzZSE8YnIgLz48YnIgLz5GcmllbmRzLS1BbmQgVGhlbiBTb21lPGJy IC8+KERlYmJpZSBNYWNvbWJlciBDbGFzc2ljcykNCkJ5IERlYmJpZSBNYWNvbWJlcjxiciAvPjxi ciAvPjY3JSBQcmljZSBDdXQgVGhpcyBXZWVrIQ0KDQoqKioqKiBTVEFSUkVEIFRJVExFICoqKioq CgogT25lIG9mIGFjY2xhaW1lZCBhdXRob3IgRGViYmllIE1hY29tYmVy4oCZcyBjbGFzc2ljIG5v dmVscywgdGhpcyB0ZW5kZXIgc3Rvcnkgb2YgdHdvIHBlb3BsZSBkYXJpbmcgdG8gYmUgbW9yZSB0aGFuIOKAnGp1c3QgZnJpZW5kc+KAnSBpcyBhdmFpbGFibGUgZm9yIHRoZSBmaXJzdCB0aW1lIGlu IHRoZSBLaW5kbGUgc3RvcmUhDQoNClRvZGF5J3MgQmFyZ2FpbiBQcmljZTogJDAuOTkNCg0KR2V0 IEl0IE5vdw0KaHR0cDovL3d3dy5ib29rZ29yaWxsYS5jb20vbGluaz9sPWh0dHAlM0ElMkYlMkZ
我不知道为什么会这样?这是我正在使用的代码:
有什么想法吗?
mysql - 简易 SQL 查询分类
我想用赢或输的分类填充赢列,赢定义为 1-3 名,输与其他所有内容一样。
python-2.7 - 如何从文件列表中选择一些文件?
所以我正在阅读来自不同组织的多个文件。每个文件都有文件编号和组织。我正在尝试通读文件列表,仅从组织中找到那些文件,'OCE'
而忽略其他文件。我的目标是计算总共有多少个文件'OCE'
,并打印出它们的文件号。
我的问题是如何编码我只想从中选择文件'OCE'
并忽略其他文件的部分?甚至不确定要使用哪些语句。任何建议都非常感谢。
r - 在 R 中提取 Twitter 数据时添加时间线
我正在尝试使用以下代码提取关键字的 twitter 数据:
要启用连接,请将您的网络浏览器指向: https ://api.twitter.com/oauth/authorize?oauth_token=Cwr7GgWIdjh9pZCmaJcLq6CG1zIqk4JsID8Q7v1s 完成后,记录给您的 PIN 并在此处提供:8387466
但是即使 n=1000,该函数也会返回一个仅包含 99 条推文的列表,而它应该不止这些。我还尝试了具有特定时间线的相同功能:
但是这个函数返回一个空列表。
任何人都可以通过正确的附加查询集帮助我,以便我可以从特定时间线提取数据并且对推文数量没有任何限制吗?它与 API 获取的数据量有什么关系吗?
提前致谢
excel - 如何在逻辑导航时从网站中提取数据
我之前发布了一个问题,但遇到了另一个问题。
我有一个网站 www.abc.com 有 2 页 www.abc.com/a 和 www.abc.com/b
我需要根据用户输入从 www.abc.com 导航,从页面 b 中提取数据。
伪代码是这样的
- 提示用户输入(如果输入是'b')
- 转到 www.abc.com
- 搜索页面 www.abc.com/(用户输入)。在这种情况下 www.abc.com/b
- 从此页面中提取数据到 Excel 表或简单的文本文件等。
有没有一种语言可以帮助我完成这项任务?我们可以在 VBA 中做到这一点吗?
谢谢
java - 用Java从ODT中提取数据到PDF
我想在java中获取ODT文件的数据。为此,我有两种方法。
1)。我从 ODT 文件中提取数据并创建一个新文档
2)。获取 odt 文档的打印预览并将其作为图像添加到 PDF 文档中
您能否建议哪种方法更好,我该怎么做?