问题标签 [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
7811 浏览

php - 如何从网页中提取有意义和有用的内容?

我想解析一个网页并从中提取有意义的内容。我所说的有意义,是指用户希望在该特定页面中看到的内容(仅文本)(不包括广告、横幅、评论等的数据)。我想确保当用户保存页面时,他想要的数据读取已保存,仅此而已。

简而言之,我需要构建一个像 Readability 一样工作的应用程序。( http://www.readability.com ) 我需要获取网页的这些有用内容并将其存储在单独的文件中。我真的不知道该怎么做。

我不想使用需要我连接到互联网并从他们的服务器获取数据的 API,因为数据提取过程需要离线完成。

我能想到的方法有两种:

  1. 使用基于机器学习的算法(例如:http ://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/ )

  2. 开发一个可以令人满意地从网页中清除所有混乱的网络刮刀。

是否有现有的工具可以做到这一点?我遇到了锅炉管库(http://code.google.com/p/boilerpipe/),但没有使用它。有人用过吗?它是否给出了令人满意的结果?有没有其他工具,特别是用 PHP 或 Python 编写的,可以进行这种网络抓取?

如果我需要构建自己的工具来做到这一点,你们会建议做什么?

因为我需要在开始解析之前清理凌乱或不完整的 HTML,所以我会使用像 Tidy ( http://www.w3.org/People/Raggett/tidy/ ) 或 Beautiful Soup ( http: //www.crummy.com/software/BeautifulSoup/bs4/doc/)来完成这项工作。

但是我不知道在这一步之后如何提取内容。

PS。我是一名业余爱好者,如果有准备好使用开源工具来执行此操作,并且可以轻松集成到我将用 PHP 或 Python 编写的代码中,我会很高兴。或者,如果我必须编写自己的代码,我很想得到以前做过此类工作的指导!:) 非常感谢!

0 投票
1 回答
7770 浏览

vba - 从网页中提取数据 - 使用 VBA

使用 VBA,我需要从网页http://emops.tse.com.tw/t21/sii/t21sc03_2011_9_e.htm中提取数据

我可以使用以下代码获取所有数据:

但问题是我不想要整个页面的数据。我想要行业名称为 Electron 的表中的数据(在这种情况下是最后一个表)

请问有什么技巧吗?

0 投票
1 回答
2720 浏览

file-upload - 剑道ui网页上传提取txt文件内容并记录到数据库

第 1 步 - 选择带有剑道上传的 txt 文件

(在此阶段将其上传到数据库或将其上传到 app_data 文件夹以便稍后删除或其他方法)

第 2 步 - 从 txt 文件中提取数据

(?取决于第 1 步,我会选择我上传的文件或在 app_data 中的文件,或者......然后将其放入文件流或其他东西以获取里面的所有文本)

第 3 步 - 将提取的数据分配给表模型以记录回数据库

我一次应该只处理一个文件,我也想知道我是否可以限制剑道上传,如果我什至需要上传文件,则每次上传只允许单个文件。

0 投票
3 回答
127 浏览

java - 复杂字符之间的 Java 正则表达式文本

我试图在正则表达式的帮助下将文本从字符串中提取出来,但我之前没有使用太多,而且我无法弄清楚 Pattern.compile 的格式。

我想从以下字符串中减去重量(9 盎司):


我的 Pattern.compile 格式应该是什么。我试图在“重量:”和“(”之间切换。

任何帮助都会很棒!我一直在寻找一段时间,但我找不到解释格式的好地方。

0 投票
2 回答
4513 浏览

windows - iMacros - 此 TAG 失败(未找到输入字段)

这是我要选择的输入字段(来自网站)

我需要标记它,然后对要提取的 URL 进行相对搜索。(我不需要在输入字段中输入任何内容。) TAG 失败了,我得到的是页面上的第一个 URL,而不是输入字段之后的第一个 URL。(上面的输入字段是我需要抓取的链接之前唯一容易选择的项目。)

这是失败的代码:

iMacros v. 7.6.0.2 for Firefox Windows XP SP3

(不幸的是,iMacros 官方论坛已经死了。所以我把这个带到了这里。)

0 投票
1 回答
321 浏览

sql - 可以使用例如 Jailer 提取完整的数据依赖树吗?

我需要填充我们的 IBM DB2 性能测试数据库。我想从我们的一个测试关系数据库中获取一行及其所有依赖项,然后将行复制/粘贴到脚本中。

是否可以使用例如 Jailer 从数据库及其所有依赖项中提取一行?即,它将提取该行的 FK 中的所有行,以及该行的 PK 是其他行中的 FK 的那些行。我一直在看 Jailer,但我只能提取一个表的行,而不是它的所有依赖项。

0 投票
4 回答
234 浏览

java - 在 Java 中检索数据

我是一个java新手。是否可以从网站获取数据,然后将其存储在某种数据结构中?例如,该程序在给定时间从 yahoo Finance 获取股票的价值并将其存储。就像我说的,我对 Java 不是很精通,我想知道这是否可以做到。如果可以的话,是不是很难做到?

0 投票
1 回答
5215 浏览

firefox - iMacros - 如何将提取的数据附加到文件中?

我可以使用 TAG..EXTRACT..SAVEAS 获取 URL 并将其写入文件。如果我在脚本中执行 10 次,则该文件仅包含提取的最后一个 URL - 该文件正在被覆盖。我没有看到任何关于如何附加到现有文件的文档。我宁愿不必为每个 URL 提供它自己的文件名,然后从命令提示符加入所有这些文件。

Firefox 7.6.0.2 的 iMacros;视窗 XP SP3

0 投票
2 回答
552 浏览

bigdata - 在 GATE 中使用 TermRaider 插件

我想将 TermRaider 功能与 GATE 一起使用。有人可以发布一些示例代码以在 java 类中加载和使用此资源。我尝试了以下但失败了。

谁能建议我应该如何进行。

0 投票
1 回答
2043 浏览

php - PHP中的正则表达式从网站中提取数据

我是 php 新手。作为我课程作业的一部分,我需要从网站中提取数据并使用该数据呈现表格。

PS:使用正则表达式不是一个好的选择,但我们不允许使用任何库,如 DOM、jQuery 等。

字符集是 UTF-8。

这里正则表达式工作正常,但是当我为表标签应用相同的正则表达式时,它返回我空数组。与 $html 中的空格有关吗?

这里有什么问题?