问题标签 [data-extraction]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
configuration - 如何加载 Pervasive 数据文件?
我需要将 Pervasive-SQL 7 的数据库文件中的数据提取为 CSV 格式。
我得到了一个 Zip 存档,其中包含一个应用程序可执行文件(可能是 VB6 开发的)和一个包含数据文件的文件夹,并且只告诉我该应用程序使用 Pervasive-SQL 7。
在不确定如何开始之前,我从未使用过 Pervasive-SQL。我已经下载了版本 7 客户端/服务器数据库引擎的副本并将其安装在 Windows XP 工作站上。但是我不确定如何从那里开始?如何浏览数据?
我需要从数据文件中提取数据吗?我需要做什么?
ocr - 机器打印文本的 ICR?
我知道 ICR 基本上用于手写(手工打印)数据识别,但我们可以利用 ICR 来提取扭曲(质量差)的机器打印文本吗?
如果不是什么是解决以下问题的最佳方法
我有一个非结构化文档,可能会包含 2 页或更多页,文档中几乎没有日期字段可以手写。现在我想将其转换为文本文件。我尝试了一些整页 ocr(omnipage 和 abbyy 等)工具,它们具有 ICR 模块以转换为文本文件。他们擅长整页 OCR,但是当遇到手写日期时,它会在其中放置垃圾字符而不是使用 ICR 模块。我不想使用 parascript 和 A2ia 等基于位置的表单处理工具,它们仅适用于结构化文档。
或者我们可以使用 ICR 来转换机器打印的文本和手写的(无论如何在这种情况下它适用于手动返回日期)
在这里,我的目标是从非结构化文档中获取文本文件输出,手写文本很少(如日期、数字)
parsing - 如何从 SCADA CIMPLICITY 软件的 DAT 和 IDX 文件中提取数据?
我的任务是从旧软件的数据文件中提取数据 - CIMplicity HMI Plant Edition 6.0 版。它是 2002 年的 SCADA 软件。我有一个数据文件目录的副本,其中包含很多 *.DAT 和 *.IDX 文件。我需要将此数据提取到 CSV 或 SQL 数据库。一些 DAT 文件只是纯文本,但其他文件具有类似二进制的格式,当在 PSPad 中打开时,会以 HEX 视图模式显示。
我可以使用哪些工具来可靠地从这些文件中读取和提取数据?
TIA。
更新:我添加了包含数据文件的目录的目录列表:
更新:附加的point.dat截图:
excel - Excel:仅将某些行中的值相加
在表 1 中:在 AI 列中有日期。在 BI 列中有货币值。在工作表 2 中,我如何找到工作表 1 中仅对应于某些指定的一周日期范围的货币值的总和?
c# - 在c#中使用正则表达式提取字符串中的特定值
我正在通过串行端口通信接收字符串中的数据。那部分工作正常。数据格式如下:
但这可能会有所不同,因为在每个人创建的博客之间(包括它在纬度/经度、日期和时间中的位置),可能会有另一个距离和方向(以度为单位)。
我已经尝试过 Regex,但不确定如何很好地使用它。我什至有一个只提取数字的正则表达式。
我想要的是提取 let say distance run 的具体值:第一个值是 36in 并存储它等等。然后获取以度为单位的方向值并将其存储在另一个变量中,最后获取 lat & long 并将其存储在另一个变量中。我需要这些值来创建一个列表,以便以后使用该数据并绘制它。我已经有了绘图部分。
我试过这个:
我知道这种模式只考虑到距离仅为 2 个数字,但该值可以是 1 或 3 个数字(例如:距离跑:1 英寸或距离跑:219 英寸)
但不工作。我会感谢任何帮助和建议。提前致谢。
c# - 使用 RegEx 从文本文件中提取数据
我正在尝试编写一个正则表达式来从文件中提取数据。
该文件如下所示:
该文件包含多行记录,就像上面的记录一样。在文件的每一行中都有一个固定位置的代码(100 - 记录开始,101 - 记录详细信息,102 - 记录结束)。我想从该文件中提取一个结构List<List<string>>
,例如外部列表将存储文件中所有记录组的结构。
我的第一种方法是用 a 解析这个文件,foreach
但我认为应该有一种方法可以用 RegEx 来实现这一点。由于我想扩展我的 RegEx 知识,我认为这对我来说是一个很好的例子。
是否可以使用 RegEx 解析此类数据?如果是这样,有人可以帮助解决 RegEx 本身吗?
谢谢!
tagging - 使用实体列表进行标记/实体提取
我正在寻找一个从文本中提取实体的好解决方案。就我而言,实体是电影标题(因此它们可能是很长的字符串),我将它们存储在数据库中。
有什么好方法可以做到这一点?是否有任何已经开发的软件来执行这种任务?
我见过 nltk,但我需要的不是那么复杂:给定一个(巨大的)字符串列表,在输入文本中识别它们。
谢谢!
php - 从外部网站提取 PHP 数据,然后写入数据库
只是想知道这将如何完成。假设在外部网站上有一个简单的 HTML 表,并且您有一个与该 HTML 表具有相同结构的数据库。我知道您可以使用它file_get_contents
来抓取整个网页。
从那里,我假设您将从标签中删除file_get_contents
除标签之间的内容之外的所有内容<table></table>
,从而隔离包含您要写入的数据的表。
你下一步怎么做?假设您的数据库表结构与 HTML 表的结构相匹配,那么将表数据写入数据库的最简单方法是什么?
sql-server - 动态数据提取工具
几个星期以来,我一直在寻找一个工具,它要么是完全构建的,要么是我可以构建的东西的方向,用于通过 Web 界面动态提取数据。基本上,我正在寻找的是一种方法,可以为用户提供我们数据库中所有可用数据对象的列表,然后让他们从列表中选择他们想要查看的对象并设置参数,然后将结果导出到 Excel 文件.
现在我们纯粹使用 SQL 语句来做这件事,但是我们有数百个对象,所以您可能会想象,这些语句非常复杂并且容易出错。如果有可用的工具来执行此操作,或者如果有人有一个简单的方法来组织它,那就太好了。任何帮助将不胜感激。
我们已经查看了 QlikView 和 Tableau 等 BI 工具,但这对于我们正在尝试做的事情来说可能是多余的。我们看到的开源 BI 工具在功能上看起来非常原始。我们看到的另一件事是 MSAS(我们的数据库是 SQL Server),但我更喜欢与数据库无关的东西,并且生活在 Web 服务器上而不是数据库上。
python - Python - parse IPv4 addresses from string (even when censored)
Objective: Write Python 2.7 code to extract IPv4 addresses from string.
String content example:
The following are IP addresses: 192.168.1.1, 8.8.8.8, 101.099.098.000. These can also appear as 192.168.1[.]1 or 192.168.1(.)1 or 192.168.1[dot]1 or 192.168.1(dot)1 or 192 .168 .1 .1 or 192. 168. 1. 1. and these censorship methods could apply to any of the dots (Ex: 192[.]168[.]1[.]1).
As you can see from the above, I am struggling to find a way to parse through a txt file that may contain IPs depicted in multiple forms of "censorship" (to prevent hyper-linking).
I'm thinking that a regex expression is the way to go. Maybe say something along the lines of; any grouping of four ints 0-255 or 000-255 separated by anything in the 'separators list' which would consist of periods, brackets, parenthesis, or any of the other aforementioned examples. This way, the 'separators list' could be updated at as needed.
Not sure if this is the proper way to go or even possible so, any help with this is greatly appreciated.
Update: Thanks to recursive's answer below, I now have the following code working for the above example. It will...
- find the IPs
- place them into a list
- clean them of the spaces/braces/etc
- and replace the uncleaned list entry with the cleaned one.
Caveat: The code below does not account for incorrect/non-valid IPs such as 192.168.0.256 or 192.168.1.2.3 Currently, it will drop the trailing 6 and 3 from the aforementioned. If its first octet is invalid (ex:256.10.10.10) it will drop the leading 2 (resulting in 56.10.10.10).