“data-extraction”的相关标签问题

0 投票

2 回答

26013 浏览

ruby - ruby：从嵌套的 json 中提取字段

我正在尝试自学红宝石并解决工作中的问题。我的最终目标是从 API 中提取 JSON 响应的众多字段中的三个，操作并转储到 CSV 以进行执行报告。

JSON的结构是：

具体来说，我想提取dataPoint, startOn, ackedOn.

我想我需要先提取总值，所以我知道我有多少警报。这将帮助我遍历警报实例。

我被困在试图提取总数。输出什么也不显示：

有一个更好的方法吗？

2014-02-12T18:54:09.820

0 投票

3 回答

174 浏览

python - 使用 BeautifulSoup 提取特定数据

我想从这个片段中提取一些数据：

我只想提取212.19 MB.

我已经提取了代码片段，soup.find('div', attrs={'id': 'information_content'})但我不知道如何进一步深入以获得我需要的东西。

有人可以帮忙吗？

python html web-scraping beautifulsoup data-extraction

2014-02-13T10:41:59.220

0 投票

1 回答

874 浏览

python - 如何在特定文件夹中搜索 .zip 文件，然后从其中的 .txt 文件中提取数据

重要信息：我在 Ubuntu (13.10) 中执行此操作，并且在此项目中不属于我的联盟，但推动我的知识是我喜欢学习的方式。

我想做一个程序，当它启动时运行一个脚本，该脚本扫描特定文件夹（etc/UIManager/saves）中的 .zip 文件，每个文件都包含一个名为“data.txt”的特定文本文件，然后获取数据在其中（UIname，Version，Compatibility）并将其放在单行水平表中

团结 | 3.2.5 | 13.10

我希望使用多个 .zip 文件完成此操作。每次启动程序时都会刷新这些列表。.zip 文件的名称不是预先确定的。

如果用户将这三个保存在文件夹中，这就是用户将在程序窗口中看到的内容（“|”只是用来分隔数据，不是必需的）：

团结 | 3.2.5 | 13.10

KDE | 4.1.0 | 13.10

侏儒 | 3.5.7 | 13.10

文本文件看起来像这样，并且都命名为 data.txt：

用户名= x

版本 = 主要、次要、开发版本

兼容性=它们兼容的 Ubuntu 版本

我希望使用的语言最好是 Python 3，但任何 C 语言也可以。如果用另一种语言更容易或更实用，我愿意接受建议。看看我的主要目标是什么：http ://www.youtube.com/watch?v= mERSAYhN80U 我现在正在处理的部分是您在显示两个 UI 的第一个窗口中看到的内容

python ubuntu data-extraction

2014-02-17T02:32:17.113

0 投票

1 回答

298 浏览

r - 波士顿数据集，基于值的多个过滤器

我是初学者。我正在使用 MASS 包中的波士顿数据集。我想应用过滤器来获取变量“chas”的值为 1 / TRUE 且变量“age”的值大于 50.0 的记录

我试过：

我得到的结果是：0列35行的数据框

但是，我想要数据框中所有 chas 为真且年龄大于 50 的记录。

我可以使用哪些替代方法？以及如何将过滤扩展到 3 / 4 / 任意数量的变量。

r filter subset multiple-columns data-extraction

2014-02-19T15:42:20.320

0 投票

1 回答

1738 浏览

php - 使用 PHP 抓取电子邮件

我有一个脚本应该从收件箱中删除选定的电子邮件。一切正常，除了身体。主题、日期、发件人等.. 被抓取没有问题，但正文返回如下：

VG9kYXkncyBGcmVlIGFuZCBCYXJnYWluIEJvb2tzCgpVcGRhdGUgUHJlZmVyZW5jZXM6ICBodHRw Oi8vd3d3LmJvb2tnb3JpbGxhLmNvbS9wcmVmZXJlbmNlcz9oPTZjNTgxNDEyYjkzMTdiMWZlNjc1 ZDcwNDFjODJhYTc5Ckludml0ZSBGcmllbmRzOiBodHRwOi8vd3d3LmJvb2tnb3JpbGxhLmNvbS9p bnZpdGU/aD02YzU4MTQxMmI5MzE3YjFmZTY3NWQ3MDQxYzgyYWE3OQpVbnN1YnNjcmliZTogaHR0 cDovL3d3dy5ib29rZ29yaWxsYS5jb20vdW5zdWJzY3JpYmU/aD02YzU4MTQxMmI5MzE3YjFmZTY3 NWQ3MDQxYzgyYWE3OQoKQWxsIHByaWNlcyB3ZXJlIHZlcmlmaWVkIGJ5IEJvb2tHb3JpbGxhIHBy aW9yIHRvIHRoaXMgZW1haWwgYmVpbmcgc2VudCwgYnV0IHByaWNlcyBtYXkgY2hhbmdlIHdpdGhv dXQgbm90aWNlIHNvIHBsZWFzZSB2ZXJpZnkgdGhhdCB0aGUgYm9vayBpcyBzdGlsbCBmcmVlIG9y IGJhcmdhaW4gcHJpY2VkIGJlZm9yZSBjb25maXJtaW5nIHlvdXIgb3JkZXIuIFNvbWUgYm9va3Mg bWF5IG5vdCBiZSBmcmVlIG91dHNpZGUgdGhlIFVuaXRlZCBTdGF0ZXMuIFdlIHdlbGNvbWUgeW91ciBmZWVkYmFjaywgc28gcGxlYXNlIHJlcGx5IHRvIHRoaXMgZW1haWwgaWYgeW91IGhhdmUgYW55 IGNvbW1lbnRzIG9yIHN1Z2dlc3Rpb25zIHlvdSB3b3VsZCBsaWtlIHRvIHNoYXJlIHdpdGggdXMu CgoKCi0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0t LS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0tLS0NCg0KRG9uJ3Qg bWlzcyB0aGlzIEJFU1QgUFJJQ0UgRVZFUiBvbiBEZWJiaWUgTWFjb21iZXIncyBjbGFzc2ljIERl Y2VtYmVyIDIwMTMgcmVsZWFzZSE8YnIgLz48YnIgLz5GcmllbmRzLS1BbmQgVGhlbiBTb21lPGJy IC8+KERlYmJpZSBNYWNvbWJlciBDbGFzc2ljcykNCkJ5IERlYmJpZSBNYWNvbWJlcjxiciAvPjxi ciAvPjY3JSBQcmljZSBDdXQgVGhpcyBXZWVrIQ0KDQoqKioqKiBTVEFSUkVEIFRJVExFICoqKioq CgogT25lIG9mIGFjY2xhaW1lZCBhdXRob3IgRGViYmllIE1hY29tYmVy4oCZcyBjbGFzc2ljIG5v dmVscywgdGhpcyB0ZW5kZXIgc3Rvcnkgb2YgdHdvIHBlb3BsZSBkYXJpbmcgdG8gYmUgbW9yZSB0aGFuIOKAnGp1c3QgZnJpZW5kc+KAnSBpcyBhdmFpbGFibGUgZm9yIHRoZSBmaXJzdCB0aW1lIGlu IHRoZSBLaW5kbGUgc3RvcmUhDQoNClRvZGF5J3MgQmFyZ2FpbiBQcmljZTogJDAuOTkNCg0KR2V0 IEl0IE5vdw0KaHR0cDovL3d3dy5ib29rZ29yaWxsYS5jb20vbGluaz9sPWh0dHAlM0ElMkYlMkZ

我不知道为什么会这样？这是我正在使用的代码：

有什么想法吗？

php email imap data-extraction

2014-02-21T14:37:37.733

0 投票

2 回答

313 浏览

mysql - 简易 SQL 查询分类

我想用赢或输的分类填充赢列，赢定义为 1-3 名，输与其他所有内容一样。

mysql data-extraction

2014-02-21T18:30:47.597

0 投票

0 回答

49 浏览

python-2.7 - 如何从文件列表中选择一些文件？

所以我正在阅读来自不同组织的多个文件。每个文件都有文件编号和组织。我正在尝试通读文件列表，仅从组织中找到那些文件，'OCE'而忽略其他文件。我的目标是计算总共有多少个文件'OCE'，并打印出它们的文件号。

我的问题是如何编码我只想从中选择文件'OCE'并忽略其他文件的部分？甚至不确定要使用哪些语句。任何建议都非常感谢。

python-2.7 data-extraction

2014-03-16T20:41:42.830

0 投票

1 回答

660 浏览

r - 在 R 中提取 Twitter 数据时添加时间线

我正在尝试使用以下代码提取关键字的 twitter 数据：

要启用连接，请将您的网络浏览器指向： https ://api.twitter.com/oauth/authorize?oauth_token=Cwr7GgWIdjh9pZCmaJcLq6CG1zIqk4JsID8Q7v1s 完成后，记录给您的 PIN 并在此处提供：8387466

但是即使 n=1000，该函数也会返回一个仅包含 99 条推文的列表，而它应该不止这些。我还尝试了具有特定时间线的相同功能：

但是这个函数返回一个空列表。

任何人都可以通过正确的附加查询集帮助我，以便我可以从特定时间线提取数据并且对推文数量没有任何限制吗？它与 API 获取的数据量有什么关系吗？

提前致谢

r data-extraction twitter-r

2014-04-17T06:20:52.527

0 投票

1 回答

141 浏览

excel - 如何在逻辑导航时从网站中提取数据

我之前发布了一个问题，但遇到了另一个问题。

我有一个网站 www.abc.com 有 2 页 www.abc.com/a 和 www.abc.com/b

我需要根据用户输入从 www.abc.com 导航，从页面 b 中提取数据。

伪代码是这样的

提示用户输入（如果输入是'b'）
转到 www.abc.com
搜索页面 www.abc.com/（用户输入）。在这种情况下 www.abc.com/b
从此页面中提取数据到 Excel 表或简单的文本文件等。

有没有一种语言可以帮助我完成这项任务？我们可以在 VBA 中做到这一点吗？

谢谢

excel vba webpage data-extraction

2014-04-19T02:52:38.043

0 投票

2 回答

975 浏览

java - 用Java从ODT中提取数据到PDF

我想在java中获取ODT文件的数据。为此，我有两种方法。

1）。我从 ODT 文件中提取数据并创建一个新文档

2）。获取 odt 文档的打印预览并将其作为图像添加到 PDF 文档中

您能否建议哪种方法更好，我该怎么做？

java pdf data-extraction odt

2014-04-22T07:00:58.567

问题标签 [data-extraction]

Reference