问题标签 [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
597 浏览

jquery - 使用 Jquery 从页面中提取数据?

我想提取无法通过 Yahoo Pipe 提供的动态网页上的所有 ISBN(用户必须登录才能查看该页面)。有没有办法用 jQuery 做到这一点?如何?

编辑: 结构:

下面是 HTML 在该页面上的外观示例。其中<table>有一系列<tr>元素。其中一个示例大致如下所示:

其中任何一个都没有 id 属性,但结构定义良好。

谢谢!

0 投票
3 回答
9282 浏览

postgresql - PostgreSQL 到数据仓库:近实时 ETL / 数据提取的最佳方法

背景:

我有一个针对 OLTP 进行了高度优化的 PostgreSQL (v8.3) 数据库。

我需要在半实时的基础上从中提取数据(有人一定会问半实时是什么意思,答案尽可能频繁,但我会务实,作为基准可以说我们希望每 15 分钟)并将其输入数据仓库。

多少数据?在高峰期,我们谈论每分钟大约 80-100k 行到达 OLTP 端,非高峰期这将显着下降到 15-20k。最频繁更新的行每行约为 64 字节,但有各种表等,因此数据非常多样化,每行最多可达 4000 字节。OLTP 24x5.5 处于活动状态。

最佳解决方案?

据我所知,最实用的解决方案如下:

  • 创建 TRIGGER 以将所有 DML 活动写入旋转的 CSV 日志文件
  • 执行所需的任何转换
  • 使用原生 DW 数据泵工具将转换后的 CSV 有效地泵入 DW

为什么采用这种方法?

  • TRIGGERS 允许将选择性表作为目标而不是系统范围 + 输出是可配置的(即到 CSV),并且相对容易编写和部署。SLONY 使用类似的方法,开销是可以接受的
  • CSV 转换简单快速
  • 易于将 CSV 泵入 DW

考虑的替代方案....

  • 使用本机日志记录 ( http://www.postgresql.org/docs/8.3/static/runtime-config-logging.html )。问题是它相对于我需要的东西看起来非常冗长,并且解析和转换有点棘手。但是它可能会更快,因为我认为与 TRIGGER 相比开销更少。当然它会使管理员更容易,因为它是系统范围的,但同样,我不需要一些表(一些用于持久存储我不想记录的 JMS 消息)
  • 直接通过 Talend 等 ETL 工具查询数据并将其泵入 DW ......问题是 OLTP 模式需要调整以支持这一点,并且有许多负面影响
  • 使用经过调整/破解的 SLONY - SLONY 在记录和迁移更改到从属设备方面做得很好,因此概念框架就在那里,但提议的解决方案似乎更容易和更清晰
  • 使用 WAL

有没有人这样做过?想分享你的想法吗?

0 投票
4 回答
24244 浏览

google-maps - 如何在谷歌地图中提取大头针的纬度/经度?

我想在谷歌地图网页中提取一组大约 50-100 个图钉的纬度和经度。我不控制页面,我不需要多次这样做,所以我正在寻找快速而肮脏的东西。我有 FireFox 和FireBug以及 Chrome,我需要的只是比重新输入所有数字更容易的东西。

0 投票
2 回答
678 浏览

c# - C# 使用 Linq 为目录中的每个 XML 文件提取单个 XML 属性

如何使用 Linq 从目录中的每个 XML 文件中提取单个 XML 属性并将该元素放入 C# 列表中。我是否必须一个接一个地遍历每个文件?XML 文件非常大,所以我不想将整个文件加载到内存中。

谢谢,j

0 投票
1 回答
77 浏览

wiki - 使用 mediawiki 确定名称类型?

如果这篇文章是关于 Lebron_James,那么我会知道它是关于一名运动员的。

0 投票
1 回答
129 浏览

python - 在 lxml 中对表进行分类

我正在处理大量的 html 文档。我的任务之一是从文档中提取所有文本。我已经走了很远,但现在我被难住了,因为使用表格作为容器/格式化结构来获取本质上不是数字的信息

我的目标是忽略-留下-如果它是数字字段表,则不提取“表”

我正准备通过获取表格来实现基于粗暴规则的方法,如果超过一定百分比的 td.text_content() 可以分类为数字,我将决定该表格是数值表格

我想知道是否有人可以提出更好的方法

0 投票
5 回答
12545 浏览

windows - 如何从 Windows 应用程序内存中读取一些数据?

我有一个应用程序,它向我显示一些数据。我需要附加到这个应用程序的进程,在内存中找到我需要的数据(实际上是一个数字),并将其保存在某个地方。这个应用程序似乎没有使用标准的 Windows 控件,所以事情不会像使用 AutoIt 或类似的东西读取控件数据那么简单。

目前我是一个自学数据库的人,对 Windows 应用程序调试的知识相当浅薄。甚至不确定我是否正确地问了我的问题。

那么,您能否给我一些入门指南,例如,我应该首先阅读什么,以及我应该研究的一般方向?

谢谢。

0 投票
2 回答
2962 浏览

perl - 如何从 Perl 中的文本文件中提取/解析表格数据?

我正在寻找类似HTML::TableExtract的东西,但不是用于 HTML 输入,而是用于包含以缩进和间距格式化的“表格”的纯文本输入。

数据可能如下所示:

0 投票
7 回答
276884 浏览

python - 如何从字符串中提取浮点数

我有许多类似的字符串Current Level: 13.4 db.,我想只提取浮点数。我说浮动而不是十进制,因为它有时是完整的。RegEx 可以做到这一点还是有更好的方法?

0 投票
2 回答
90 浏览

regex - 我的情况是否适合使用 ' /i ' REGEX 属性?

我正在为我的特定版本的 VMWare 支持的所有可能的操作系统名称制作一个大型目录。最初我是把它们都写在 VMX 文件中,但后来我发现一个网站把它们都列出来了,问题是它们没有适当的大小写来提供“完美”的匹配,这是使用不区分大小写的正则表达式属性?

另外作为一个附带问题,是否可能从网站中提取操作系统列表?它们看起来在 HTML 格式的图表中。这将节省我大量的时间,不得不把它们全部打出来。

我查看了 HTML::Table 提取,但我并不真正了解如何使用它。就表格而言,我能够在网站代码中找到该部分,并将其复制到一个新的 html 文件中,这样我就可以将它放在我的桌面上。

这很奇怪,我可能遗漏了一些东西。但我无法匹配不区分大小写的情况。当用 /xmi 结束我的正则表达式时,我得到这个输出;

Use of uninitialized value $guest_os in concatenation (.) or string at discovery4.pl line 146.

我发现这意味着没有匹配项与我要打印的标量相关联。

无论如何,我知道我遇到了一个问题,不想匹配任何情况,因为如果我修改winnetstandardwinNetStandard可以工作并说,; Windows Server 2003, Standard Edition. 这是它应该说的。