问题标签 [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
15187 浏览

matlab - MATLAB:将列组提取到子矩阵中?

我有一个数据集,我想在其中提取第 1-3、7-9、13-15 列,一直到矩阵的末尾

例如,我使用了标准的魔法函数来创建一个矩阵

A=魔法(10)

一个=

我知道我可以使用以下命令以 3 的间隔从 1 开始提取单列:

Aex=a(:,1 : 3 : 结束)

Aex =

假设我想提取列组(例如列 1-3、7-9 等)。

有没有办法做到这一点而不必手动指出所有的列号?

谢谢你的帮助!拉斯穆斯

0 投票
1 回答
309 浏览

html - Web 数据提取,从表格中获取数据到 CSV

我想从网页中的表格中获取数据,这些表格似乎是使用“Excel Publish as Web Page Wizard”发布的。我知道有很多抓取工具(对于这样的任务来说似乎很先进)并且知道我可以编写一个脚本,但我想指出一些非常简单的东西,特别是数据是使用自动化发布的工具。

我更喜欢使用 Rails 解决方案。

数据是统计健康数据,这里是一些样本的链接

0 投票
1 回答
372 浏览

regex - 网站智能数据提取算法

我正在构建一个交易聚合器,所以我需要一个爬虫来从一些网站中提取数据:价格、折扣、图像、坐标和交易名称。

你知道任何教程、电子书或对我有帮助的东西吗?对于图像和坐标以及折扣,我有一个解决方案和模式:

  • 形象:最大的形象永远是交易的主要形象
  • 折扣:折扣始终是 50 到 99 之间的数字,并且始终带有“%”符号
  • 坐标:总是十进制数字,所以我用正则表达式得到它

如何获得以下物品?

  • 交易名称?
  • 价格?

你知道任何有用的数据提取算法吗?

0 投票
2 回答
69 浏览

regex - Trying to extract information in a regular expression

I'm trying to write a regular expression that will allow me to extract the data in between the quotation marks, and then allow me to replace it with new information.

title="Information here"

0 投票
4 回答
144 浏览

java - 有人可以帮我从这个文本中提取子字符串吗?

我正在尝试创建一个需要从 imdb 提取数据的项目。我见过一些 php 提取器,但我需要一个 java 程序。我需要提取如下信息:

  1. 电影名称和年份
  2. 小地块
  3. 评分
  4. 类型
  5. 演员

数据如下,我需要从中提取数据:

如果有帮助,此数据来自 imdbapi.com。让我知道是否有任何其他方法可以以任何其他方式提取这些数据,我的意思是这些数据将以更结构化的形式显示的其他方式。喜欢卓越。

0 投票
2 回答
113 浏览

export-to-csv - 获取退伍军人事务医院数据库友好列表的最佳方法

如果这不是讨论这个问题的适当论坛,我真诚地道歉,但我不确定去哪里或什么是最好的选择。

基本上,我试图找到一个数据库友好的退伍军人医院列表。我能找到的最接近的东西是 www.va.gov/ofcadmin/docs/CATB.pdf,因为它包含我正在寻找的所有信息:

  • 地区
  • 地址
  • 单独列中的城市
  • 邮政编码在单独的列中
  • 状态
  • 设施编号(也称为 StationID)
  • VISN
  • 象征

我已经尝试将该 PDF 导出为 CSV,但开始工作是一场彻头彻尾的噩梦。所以,我很好奇是否有人对我如何完成这项任务有任何想法或见解。

0 投票
3 回答
93 浏览

python - Python:确定缺失的行

以包含以下几行的短文件为例:

我所做的是读取文本文件,并将Apple,OrangePear放入各自的列表中,例如:

我曾经line.count('Apple')==1确定文本文件中的当前行是一个水果,然后将其后的值附加=到列表中。

如您所见,缺少第二部分Apple。我希望列表是:

每当该行不显示水果时,应附加列表-以指示它。

我的问题是,那我该怎么做。确定一个部分缺少水果名称,然后附加-到它。

0 投票
3 回答
3405 浏览

data-extraction - 自动填写网络查询表单并返回数据(对于新手)

我是编程中的“新手”之前的任何东西。我在 VBA 中为 Excel 编写了宏,并且在我年轻的时候也使用过 Visual Studio,但仅此而已。

我的问题:为了生成我在工作中需要的报告,我必须提取存储在我公司 Intranet 上用户友好查询表单后面的数据。除了这个,我已经自动化了报告的所有其他部分。我想编写一个程序来访问这个网页并用预设值为我填写查询表,然后返回输出的数据。我与我的一位计算机科学家朋友进行了讨论,他说使用 Haskell(他选择的语言)很容易做到这一点。但是我不是老手,所以我想学习一种更接近我水平的语言...... Python 似乎是一个不错的选择。

我的问题:是否可以使用 Python 进行这种类型的数据提取?这会有多难,什么是自学的好资源?

我做了一些研究并提出了 Scrapy,但我不知道它是否可以填写表格。此外,如果有其他更适合此的语言,我会很高兴听到它。

0 投票
0 回答
74 浏览

phpquery - 在一个循环中从 100 个网页中提取数据时遇到问题

我有点卡住了。我的目标是从一个有几百页的网站中提取数据。它是一个体育网站,我必须提取球队名称和其他相关数据。到目前为止,我已经成功地做到了。我运行了 6-7 页的循环,它的效果非常好。但是当我将循环更改为大约一个月(25)时,它会检索到不完整的数据。例如,如果目的地日期是 10 月 25 日,它可能会在 10 月 10 日至 12 日随机停止。我正在使用phpQuery,我的互联网连接为 1MB。请在这件事上指导我,谢谢。

0 投票
1 回答
103 浏览

java - 如何获取不在 html 源中但在浏览器中可见的数据?

我想要的数据在浏览器中是可见的,但我在 html 源代码中找不到。我怀疑数据是由脚本生成的。我想对这类数据进行分级。可以使用 Jsoup 吗?我知道 Jsoup 只是不执行 Javascript。

这个页面为例,我想抓取 Academics -> COLLEGES & SCHOOLS 下的所有学院和学校。