问题标签 [data-extraction]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
298 浏览

javascript - 从 JavaScript 中提取 i18n 标记

我正在开发一个支持 i18n 的 Javascript 应用程序。翻译标记使用以下格式分布在整个源代码中:__('some.token')__('other.token.with.vars', {name: 'Julia', otherName: 'Nadine'})

关于如何从文件中提取所有令牌的任何想法?有没有这样的工具?还是我需要编写自己的解析器?

0 投票
1 回答
259 浏览

regex - CF 正则表达式 REFind() 不带引号的子字符串

我的 CF 后端必须像读取 TEXT 文件一样读取 CFM 文件,以提取不同参数的名称和值,数据如下所示:

如您所见,我可以有可以单引号或双引号的字符串。

我也有 BOOLEANS 和 NUMBERS,它们通常不带引号,但也可以有(单引号或双引号)。

我正在“解析”文件并提取值,我想找到一个返回匹配项的模式,如下所示:

请求配置。MY_PARAM_2 = " BlaBlaBla ";

我非常接近成功,但不幸的是,以下表达式无法摆脱​​结束引号。

例如,它返回BlaBlaBla",它已经成功省略了开头引号,但不是最后一个,我做错了什么?

0 投票
1 回答
441 浏览

excel - 在 Excel 中从单个单元格中提取地址

我有 2002 个地址,在从我的服务器下载过程中,这些地址都被编译成一个单元格;在大多数情况下,井号 (#) 符号用于分隔字段(例如第 1 行、第 2 行、城市、邮政编码)。

我花了很多时间尝试组合LEFT,MID和其他功能,但无济于事;问题是,由于地址太多,而且并非所有地址的每个字段都有相同数量的字符(例如邮政编码 - 有些将有 6 个字符(包括空格),而另一些将有 5 个或更多/更少),似乎没有一个万能的解决方案,我可以输入一次,然后使用 Excel 的自动填充句柄/功能来完成所有记录的过程。

这是我的数据样本(已匿名):

我希望能够提取散列符号之间的所有内容(不包括/省略散列符号本身),并且我专用四列来存储这些数据:Address Line 1, AL2, AL3, Postcode.

44A THE ADDRESS#EALING#LONDON#W1 1WW#通过驻留在单个单元格中的第一个示例 ( ),我希望实现类似以下结果:

某些地址部分是否出现在错误的列下并不重要——我可以很容易地纠正这一点,甚至可以添加另一列;我只是希望能够从单个单元格中提取数据。

0 投票
6 回答
406 浏览

php - 使用 preg_match_all 匹配双引号内的数据

下面给出的数据格式为“name”:“Value”、“name2”:“Value 2”、“name3”:“Value 3”

我试图使用 php提取名称

但它不起作用。希望知道修复它的人会帮助我。谢谢你。

0 投票
4 回答
284 浏览

php - 使用 PHP 提取多级重复 xml 标记之间的文本

我正在尝试在多级 XML 标记之间提取文本。
这是
<eSearchResult> <Count>7117</Count> <RetMax>10</RetMax> <RetStart>0</RetStart> <QueryKey>1</QueryKey> <WebEnv> NCID_1_457044331_130.14.22.215_9001_1401819380_1399850995 </WebEnv> <IdList> <Id>24887359</Id> <Id>24884828</Id> <Id>24884718</Id> <Id>24884479</Id> <Id>24882343</Id> <Id>24879340</Id> <Id>24871662</Id> <Id>24870721</Id> <Id>24864115</Id> <Id>24863809</Id> </IdList> <TranslationSet/> <TranslationStack> <TermSet> <Term>BRCA1[tiab]</Term> . . . </TranslationStack> </eSearchResult>
我只想提取其中<ID></ID>包含的标签之间的十个ID的数据文件<IdList></IdList>。正则表达式让我得到十个值中的第一个值。 preg_match_all('~<Id>(.+?)<\/Id>~', $temp_str, $pids) xml 数据存储在 $temp_Str 变量中,我正在尝试获取存储在 $pids 中的值还有其他建议吗?

0 投票
1 回答
115 浏览

matlab - 从单列数据集中提取行块以分隔连续列

我有一个数据集,其中包含 1 列中的所有数据。然而,每n行出现一个新的子数据集。使用 MATLAB,我需要获取每个子数据集并放置在单独的顺序列中。例如,这个:

第 1 列

进入这个:

第 1 栏 | 第 2 栏 | 第 3 栏 | ...

0 投票
1 回答
442 浏览

macros - iMacros 多页循环提取

我正在使用 iMacros v9.00.2379。我目前正在尝试实现的是进入产品页面,取消标题、附加信息、图像(如果可能)和描述。然后浏览器返回并重复以完全相同的方式构建的页面的过程。到目前为止,我已经尝试过;

有问题的网站是http://www.bookdepository.com但今天它已经关闭了。

0 投票
2 回答
695 浏览

matlab - 将数据实时导入 Matlab 并用非静态文件名绘制

我正在使用示波器和测量信号进行作业。我编写了一个程序来自动设置示波器输出数据的参数以写入特定数量的文件(让我们称之为 N)。我将所有这些文件都放在一个文档中。

我想将这些文件导入 Matlab,提取必要的数据,并以一秒的间隔(文件到文件之间)实时绘制它们。

示例运行

将十二个文件(N = 12)写入文档/开发创建一个while循环,当输入任何键时将转义使用textread读取每个文件(我没有matlab的更新版本,所以我不能使用textscan)。绘制数据
移动到下一个文件末尾

问题是文件名不一致,它们都是根据处理它们所花费的时间命名的,所以它们每次都不同(stream-july-10-10:12,stream-july-10-10:13 ,例如 stream-july-10-10:15。

所以我需要一种移动到下一个文件并绘制它的方法,而不必实际使用文件名。

我知道它很多,但任何帮助或正确方向的任何点都将不胜感激。

谢谢,杰米奇

0 投票
2 回答
5602 浏览

mysql - 将数据从一个 prestashop 版本移动到另一个

我有一个在 Prestashop v1.4 上运行的客户网站

因为已经被之前的开发者“维护”过,修改过核心文件,一般会弄得一团糟,升级模块已经不能正常工作了。鉴于客户将项目移交给我,并希望实现一个新主题,我将直接转向 Prestashop 1.6 并使用 Compass/Boostrap 3 默认主题作为基础。

显然,重要的是应该迁移客户端数据。所以我的问题是,是否可以从 Prestashop 1.4 中仅导出实际销售和网站访问数据,跳过模块配置等任何内容,以便将其全部重新导入 Prestashop 1.6?

通过这种方式,我的客户可以保留他的订单数据、访问数据、产品、付款等,并且我可以构建一个新主题,而无需与旧安装或其中包含硬编码垃圾的主题进行斗争。

0 投票
1 回答
654 浏览

reverse-engineering - 从 Filemaker 应用程序中提取数据

我有一个用 FileMaker 10 (FML10.dll) 编写的应用程序的最终用户版本,我需要软件背后的数据。有人知道提取数据的方法吗?看起来 USR 文件包含数据,但我不知道如何打开它。有没有办法通过c#查询它?