问题标签 [data-extraction]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

822 问题

0 投票

3 回答

15187 浏览

matlab - MATLAB：将列组提取到子矩阵中？

我有一个数据集，我想在其中提取第 1-3、7-9、13-15 列，一直到矩阵的末尾

例如，我使用了标准的魔法函数来创建一个矩阵

A=魔法(10)

一个=

我知道我可以使用以下命令以 3 的间隔从 1 开始提取单列：

Aex=a(:,1 : 3 : 结束)

Aex =

假设我想提取列组（例如列 1-3、7-9 等）。

有没有办法做到这一点而不必手动指出所有的列号？

谢谢你的帮助！拉斯穆斯

2012-04-13T10:34:23.613

0 投票

1 回答

309 浏览

html - Web 数据提取，从表格中获取数据到 CSV

我想从网页中的表格中获取数据，这些表格似乎是使用“Excel Publish as Web Page Wizard”发布的。我知道有很多抓取工具（对于这样的任务来说似乎很先进）并且知道我可以编写一个脚本，但我想指出一些非常简单的东西，特别是数据是使用自动化发布的工具。

我更喜欢使用 Rails 解决方案。

数据是统计健康数据，这里是一些样本的链接。

html web-scraping html-table data-extraction web-scripting

2012-05-06T03:57:22.290

0 投票

1 回答

372 浏览

regex - 网站智能数据提取算法

我正在构建一个交易聚合器，所以我需要一个爬虫来从一些网站中提取数据：价格、折扣、图像、坐标和交易名称。

你知道任何教程、电子书或对我有帮助的东西吗？对于图像和坐标以及折扣，我有一个解决方案和模式：

形象：最大的形象永远是交易的主要形象
折扣：折扣始终是 50 到 99 之间的数字，并且始终带有“%”符号
坐标：总是十进制数字，所以我用正则表达式得到它

如何获得以下物品？

交易名称？
价格？

你知道任何有用的数据提取算法吗？

regex algorithm data-extraction

2012-06-14T08:35:32.800

0 投票

2 回答

69 浏览

regex - Trying to extract information in a regular expression

I'm trying to write a regular expression that will allow me to extract the data in between the quotation marks, and then allow me to replace it with new information.

title="Information here"

regex data-extraction

user1475349

2012-06-22T16:32:25.817

0 投票

4 回答

144 浏览

java - 有人可以帮我从这个文本中提取子字符串吗？

我正在尝试创建一个需要从 imdb 提取数据的项目。我见过一些 php 提取器，但我需要一个 java 程序。我需要提取如下信息：

电影名称和年份
小地块
评分
类型
演员

数据如下，我需要从中提取数据：

如果有帮助，此数据来自 imdbapi.com。让我知道是否有任何其他方法可以以任何其他方式提取这些数据，我的意思是这些数据将以更结构化的形式显示的其他方式。喜欢卓越。

java json api data-extraction

2012-06-27T03:34:12.447

0 投票

2 回答

113 浏览

export-to-csv - 获取退伍军人事务医院数据库友好列表的最佳方法

如果这不是讨论这个问题的适当论坛，我真诚地道歉，但我不确定去哪里或什么是最好的选择。

基本上，我试图找到一个数据库友好的退伍军人医院列表。我能找到的最接近的东西是 www.va.gov/ofcadmin/docs/CATB.pdf，因为它包含我正在寻找的所有信息：

地区
地址
单独列中的城市
邮政编码在单独的列中
状态
设施编号（也称为 StationID）
VISN
象征

我已经尝试将该 PDF 导出为 CSV，但开始工作是一场彻头彻尾的噩梦。所以，我很好奇是否有人对我如何完成这项任务有任何想法或见解。

export-to-csv data-extraction data-export pdf-extraction

2012-07-10T21:49:18.113

0 投票

3 回答

93 浏览

python - Python：确定缺失的行

以包含以下几行的短文件为例：

我所做的是读取文本文件，并将Apple,Orange和Pear放入各自的列表中，例如：

我曾经line.count('Apple')==1确定文本文件中的当前行是一个水果，然后将其后的值附加=到列表中。

如您所见，缺少第二部分Apple。我希望列表是：

每当该行不显示水果时，应附加列表-以指示它。

我的问题是，那我该怎么做。确定一个部分缺少水果名称，然后附加-到它。

python list data-extraction

2012-07-25T06:01:42.307

0 投票

3 回答

3405 浏览

data-extraction - 自动填写网络查询表单并返回数据（对于新手）

我是编程中的“新手”之前的任何东西。我在 VBA 中为 Excel 编写了宏，并且在我年轻的时候也使用过 Visual Studio，但仅此而已。

我的问题：为了生成我在工作中需要的报告，我必须提取存储在我公司 Intranet 上用户友好查询表单后面的数据。除了这个，我已经自动化了报告的所有其他部分。我想编写一个程序来访问这个网页并用预设值为我填写查询表，然后返回输出的数据。我与我的一位计算机科学家朋友进行了讨论，他说使用 Haskell（他选择的语言）很容易做到这一点。但是我不是老手，所以我想学习一种更接近我水平的语言...... Python 似乎是一个不错的选择。

我的问题：是否可以使用 Python 进行这种类型的数据提取？这会有多难，什么是自学的好资源？

我做了一些研究并提出了 Scrapy，但我不知道它是否可以填写表格。此外，如果有其他更适合此的语言，我会很高兴听到它。

data-extraction

2012-09-14T12:55:27.007

0 投票

0 回答

74 浏览

phpquery - 在一个循环中从 100 个网页中提取数据时遇到问题

我有点卡住了。我的目标是从一个有几百页的网站中提取数据。它是一个体育网站，我必须提取球队名称和其他相关数据。到目前为止，我已经成功地做到了。我运行了 6-7 页的循环，它的效果非常好。但是当我将循环更改为大约一个月（25）时，它会检索到不完整的数据。例如，如果目的地日期是 10 月 25 日，它可能会在 10 月 10 日至 12 日随机停止。我正在使用phpQuery，我的互联网连接为 1MB。请在这件事上指导我，谢谢。

phpquery data-extraction

2012-10-05T21:50:40.100

0 投票

1 回答

103 浏览

java - 如何获取不在 html 源中但在浏览器中可见的数据？

我想要的数据在浏览器中是可见的，但我在 html 源代码中找不到。我怀疑数据是由脚本生成的。我想对这类数据进行分级。可以使用 Jsoup 吗？我知道 Jsoup 只是不执行 Javascript。

以这个页面为例，我想抓取 Academics -> COLLEGES & SCHOOLS 下的所有学院和学校。

java javascript html jsoup data-extraction

2012-12-02T04:49:28.267

1 2 3 4 5 6 7 8 9 10

问题标签 [data-extraction]

Reference