问题标签 [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
jquery - 使用 Jquery 从页面中提取数据?
我想提取无法通过 Yahoo Pipe 提供的动态网页上的所有 ISBN(用户必须登录才能查看该页面)。有没有办法用 jQuery 做到这一点?如何?
编辑: 结构:
下面是 HTML 在该页面上的外观示例。其中<table>
有一系列<tr>
元素。其中一个示例大致如下所示:
其中任何一个都没有 id 属性,但结构定义良好。
谢谢!
postgresql - PostgreSQL 到数据仓库:近实时 ETL / 数据提取的最佳方法
背景:
我有一个针对 OLTP 进行了高度优化的 PostgreSQL (v8.3) 数据库。
我需要在半实时的基础上从中提取数据(有人一定会问半实时是什么意思,答案尽可能频繁,但我会务实,作为基准可以说我们希望每 15 分钟)并将其输入数据仓库。
多少数据?在高峰期,我们谈论每分钟大约 80-100k 行到达 OLTP 端,非高峰期这将显着下降到 15-20k。最频繁更新的行每行约为 64 字节,但有各种表等,因此数据非常多样化,每行最多可达 4000 字节。OLTP 24x5.5 处于活动状态。
最佳解决方案?
据我所知,最实用的解决方案如下:
- 创建 TRIGGER 以将所有 DML 活动写入旋转的 CSV 日志文件
- 执行所需的任何转换
- 使用原生 DW 数据泵工具将转换后的 CSV 有效地泵入 DW
为什么采用这种方法?
- TRIGGERS 允许将选择性表作为目标而不是系统范围 + 输出是可配置的(即到 CSV),并且相对容易编写和部署。SLONY 使用类似的方法,开销是可以接受的
- CSV 转换简单快速
- 易于将 CSV 泵入 DW
考虑的替代方案....
- 使用本机日志记录 ( http://www.postgresql.org/docs/8.3/static/runtime-config-logging.html )。问题是它相对于我需要的东西看起来非常冗长,并且解析和转换有点棘手。但是它可能会更快,因为我认为与 TRIGGER 相比开销更少。当然它会使管理员更容易,因为它是系统范围的,但同样,我不需要一些表(一些用于持久存储我不想记录的 JMS 消息)
- 直接通过 Talend 等 ETL 工具查询数据并将其泵入 DW ......问题是 OLTP 模式需要调整以支持这一点,并且有许多负面影响
- 使用经过调整/破解的 SLONY - SLONY 在记录和迁移更改到从属设备方面做得很好,因此概念框架就在那里,但提议的解决方案似乎更容易和更清晰
- 使用 WAL
有没有人这样做过?想分享你的想法吗?
google-maps - 如何在谷歌地图中提取大头针的纬度/经度?
我想在谷歌地图网页中提取一组大约 50-100 个图钉的纬度和经度。我不控制页面,我不需要多次这样做,所以我正在寻找快速而肮脏的东西。我有 FireFox 和FireBug以及 Chrome,我需要的只是比重新输入所有数字更容易的东西。
c# - C# 使用 Linq 为目录中的每个 XML 文件提取单个 XML 属性
如何使用 Linq 从目录中的每个 XML 文件中提取单个 XML 属性并将该元素放入 C# 列表中。我是否必须一个接一个地遍历每个文件?XML 文件非常大,所以我不想将整个文件加载到内存中。
谢谢,j
wiki - 使用 mediawiki 确定名称类型?
如果这篇文章是关于 Lebron_James,那么我会知道它是关于一名运动员的。
python - 在 lxml 中对表进行分类
我正在处理大量的 html 文档。我的任务之一是从文档中提取所有文本。我已经走了很远,但现在我被难住了,因为使用表格作为容器/格式化结构来获取本质上不是数字的信息
我的目标是忽略-留下-如果它是数字字段表,则不提取“表”
我正准备通过获取表格来实现基于粗暴规则的方法,如果超过一定百分比的 td.text_content() 可以分类为数字,我将决定该表格是数值表格
我想知道是否有人可以提出更好的方法
windows - 如何从 Windows 应用程序内存中读取一些数据?
我有一个应用程序,它向我显示一些数据。我需要附加到这个应用程序的进程,在内存中找到我需要的数据(实际上是一个数字),并将其保存在某个地方。这个应用程序似乎没有使用标准的 Windows 控件,所以事情不会像使用 AutoIt 或类似的东西读取控件数据那么简单。
目前我是一个自学数据库的人,对 Windows 应用程序调试的知识相当浅薄。甚至不确定我是否正确地问了我的问题。
那么,您能否给我一些入门指南,例如,我应该首先阅读什么,以及我应该研究的一般方向?
谢谢。
perl - 如何从 Perl 中的文本文件中提取/解析表格数据?
我正在寻找类似HTML::TableExtract的东西,但不是用于 HTML 输入,而是用于包含以缩进和间距格式化的“表格”的纯文本输入。
数据可能如下所示:
python - 如何从字符串中提取浮点数
我有许多类似的字符串Current Level: 13.4 db.
,我想只提取浮点数。我说浮动而不是十进制,因为它有时是完整的。RegEx 可以做到这一点还是有更好的方法?
regex - 我的情况是否适合使用 ' /i ' REGEX 属性?
我正在为我的特定版本的 VMWare 支持的所有可能的操作系统名称制作一个大型目录。最初我是把它们都写在 VMX 文件中,但后来我发现一个网站把它们都列出来了,问题是它们没有适当的大小写来提供“完美”的匹配,这是使用不区分大小写的正则表达式属性?
另外作为一个附带问题,是否可能从网站中提取操作系统列表?它们看起来在 HTML 格式的图表中。这将节省我大量的时间,不得不把它们全部打出来。
我查看了 HTML::Table 提取,但我并不真正了解如何使用它。就表格而言,我能够在网站代码中找到该部分,并将其复制到一个新的 html 文件中,这样我就可以将它放在我的桌面上。
这很奇怪,我可能遗漏了一些东西。但我无法匹配不区分大小写的情况。当用 /xmi 结束我的正则表达式时,我得到这个输出;
Use of uninitialized value $guest_os in concatenation (.) or string at discovery4.pl line 146
.
我发现这意味着没有匹配项与我要打印的标量相关联。
无论如何,我知道我遇到了一个问题,不想匹配任何情况,因为如果我修改winnetstandard
它winNetStandard
可以工作并说,;
Windows Server 2003, Standard Edition
. 这是它应该说的。