问题标签 [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1663 浏览

algorithm - PDF 数据提取 - 需要建议

我创建了一个pdf 提取工具。附上示例屏幕。在此处输入图像描述用户可以加载一个pdf文件并选择他想要的数据区域。然后我抓取 pdf 坐标和页码,然后将其保存为模板。一旦用户给出一个 pdf 文件列表,工具就能够根据模板文件提取数据。我的工具与此非常相似。

现在的问题是有时在某些 pdf 中,需要提取的数据部分被转移到下一页。(转移的原因是;我举个例子。如果您认为您购买的物品清单的清单,打印“总价值”的位置取决于您购买的物品数量:如果它是一个长列表总计去底部,中间或接近顶部)。

因此,现在我正在考虑识别 pdf 的结构而不是获取坐标。

但我没有一个明确的想法来做到这一点。请分享任何您认为有助于解决此问题的内容。我再次重申,我正在尝试从 pdf 中获取数据。因此可以捕获 pdf文件的结构。

我的想法是,如果我可以识别结构,那么我可以说出价值在哪里。例如,我尝试将 pdf 转换为 html 并尝试浏览 html 标记值。(body->div->table->td-> etc.)但这并不成功.. :(

0 投票
1 回答
1874 浏览

iphone - 提取 FAT .a 文件 Mac

我的 Mac(库)上有一个 FAT .a 存档,我只是想知道如何从中提取文件?

0 投票
3 回答
45221 浏览

sql - PostgreSQL 查询到 Excel 表

我需要将一些数据从 PostgreSQL 导出到 Excel(客户希望快速),上次 Excel 在打开或导入我的 COPYd csv 文件(行尾、utf-8 编码等)时遇到严重问题,我花了一个小时最好的。

有人知道生成真正 Excel 文件的快速、优雅的解决方案吗?像一个小shell脚本之类的?

我希望这可以在我的 Linux 机器(Debian 5.0 Lenny)或 Windows(XP 或更高版本)上完成。

0 投票
1 回答
883 浏览

android - Android:将手机声音文件转换为原始数据

我想从我的手机中获取音乐文件(主要是 mp3)并将它们转换为可以进行 FFT 的原始数据。无论如何可以通过使用 android/java 框架来做到这一点,还是我需要集成像 LAME 这样的东西来解码 mp3?

0 投票
1 回答
55 浏览

php - 使用 PHP 从搜索中获取输出

我想从我大学的电子指南“https://login.ku.edu.tr/eGuide/servlet/eGuide”中获取搜索结果。但是,它只能在校园或 vpn 中访问。

我的目标是,编写在任何搜索中获取“位置”字段输出的 php 代码。但是,如果代码仅在校园内或登录 vpn 服务器的计算机中有效,也可以。

如何从搜索中获取此值?

谢谢。

0 投票
1 回答
235 浏览

sql-server - 从 sql server 中输入的 xml 中提取值

我已键入 xml 作为表中的列之一(sql server 2008)。我需要从这个输入的 xml 字段中提取一个特定的值。我检查了多个站点,但只给出了从非类型化 xml 中提取字段的方法。帮我解决这个问题。

0 投票
1 回答
270 浏览

python - 用于从网页获取片段或摘要的 API 或库

我想给出一个 URL 并得到一个摘要。是否有库或 API 可以做到这一点?

我正在使用 Python,但我可以从其他语言移植。

0 投票
2 回答
75 浏览

data-mining - 从大量文本中过滤信息

是否有可以从文本正文中查找信息的最佳实践、算法或软件(需要许可许可证的开源......)?我指的是:

  • 查找文本中的所有电子邮件地址
  • 查找所有提及的城市
  • 查找所有提及的州
  • 查找所有网址
  • 查找所有提及的电话号码
  • 找到所有提到的邮政编码......能够添加更多......

我听说 RapidMiner 应该能够像这样进行文本挖掘,但 AGPL 不是我所接受的许可。

做这种分析有什么“标准”吗?

0 投票
6 回答
2786 浏览

regex - 帮助:从文本中提取数据元组...正则表达式还是机器学习?

我非常感谢您对以下问题的最佳方法的想法。我正在使用本质上相似的汽车分类列表示例来给出一个想法。

问题:从给定文本中提取数据元组。

以下是数据的一些特征。

  1. 文本中的词汇(单词)仅限于特定领域。让我们假设最多 100-200 个单词。

  2. 需要解析的文本是如下所示的汽车广告数据之类的标题。所以每条记录对应一个元组(行)。

  3. 在某些情况下,某些属性可能会丢失。例如,在原始数据中,年份下方的第 5 行缺失。

  4. 一些单词一起出现(bigrams)。比如“低里程”。

  5. 可用历史数据 = 10,000 条记录

  6. 传入新数据量 = 1000-1500 条记录/周

预期输出应采用(年份、品牌、型号、特征)的形式。所以输出应该看起来像

1 -> (2009, 福特, Fusion, SE)
2 -> (1997, 福特, Taurus, Wagon)
3 -> (2000, 三菱, Mirage, DE)
4 -> (2007, 福特, Expedition, EL Limited)
5 -> ( , 本田, 雅阁, EX)
....
....

原始标题数据:


1 -> 2009 Ford Fusion SE - 7000 美元
2 -> 1997 Ford Taurus Wagon - 800 美元(东圣何塞)
3 -> '00 Mitsubishi Mirage DE - 2499 美元(萨拉托加)图片
4 -> 2007 Ford Expedition EL Limited - 7800 美元(x)
5 -> 本田雅阁 ex 低里程 - 2800 美元(都柏林/
格莱宁/利弗莫尔)图片 6 -> 2004 本田 ODASSEY LX 68K 英里 - 10800 美元(丹维尔/圣拉蒙)
7 -> 93 LINCOLN MARK - 2000 美元(奥克兰东部)图片
8 - > #######2006 LEXUS GS 430 BLACK ON BLACK 114KMI ####### - 19700 美元(圣拉斐尔)图
9 -> 2004 年奥迪 A4 1.8T FWD - 8900 美元(萨克拉门托)图
10 -> ## #####2003 GMC C2500 HD EX-CAB 6.0 V8 EFI WHITE 4X4 ####### - 10575 美元(圣拉斐尔)图片
11 -> 1990 年丰田卡罗拉运行良好!节气!5速清洁!REG 2011 OBO - 1600 美元(海沃德 / 卡斯特罗山谷)图片
12 -> HONDA ACCORD EX 2000 - 4900 美元(都柏林 / 洛伊肯 / 利弗莫尔)图片
13 -> 2009 雪佛兰 Silverado LT 乘员驾驶室 - 23900 美元(都柏林 / 洛宁 / 利弗莫尔)图
14 -> 2010 年讴歌 TSX - V6 - TECH - 29900 美元(都柏林/宜宾/利弗莫尔)图片
15 -> 2003 日产 Altima - 1830 美元(SF)图片


可能的选择:

  1. 机器学习文本分类器(朴素贝叶斯等)
  2. 正则表达式

我想弄清楚的是,RegEx 是否对这项工作来说太复杂了,而文本分类器是否过大?

如果选择使用文本分类器,那么您认为最容易实现的是什么。

提前感谢您的帮助。

0 投票
3 回答
1553 浏览

c# - 使用 C# 的可编程 WebCrawler

我想从已知的 Url 中提取特定数据:从 span、a、divs 等 html 标签中提取......!
因此,我正在为用 C# 编写的 WebCrawler 搜索现有库!...或者任何其他想法。

谢谢 !