问题标签 [data-handling]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
83 浏览

python - 有效地移除校准卷并用 NaN 替换它们

这是表示磁场数据的图像,在y=0轴附近,数据会发生应有的变化。 在此处输入图像描述

然而,有明显的事件发生,其中不同的数据转换为容易脱颖而出的振荡。这些超过 101 个点的大而一致的尖峰(对于所有尖峰都是一致的)称为校准卷。我将数据通过统计例程删除任何统计异常值,并且这些非物理校准卷没有被删除。

这是从图像 1 放大的校准卷之一。 在此处输入图像描述

不幸的是,这些振荡的最大值和最小值并不一致,这意味着它们在某个值附近变化。另外,可以看出这不是一个简短的数据集,因为我主要关注的点数延伸到大约 5000 万个数据点。 除了手动绘制所有这些并通过每个校准卷来记录每个校准卷的开始和结束以手动取出它们之外,有没有办法通过快速遍历数据的例程有效地运行整个数据集,发现这些发生校准滚动,并用 NaN 替换该数据?我正在使用的数据结构是 pandasSeriesDataFrames.

这是我正在做的清理此卷的工作:

运行大小为 101 点的窗口,从零开始,逐点滑动。对于窗口的每张幻灯片,我都会计算平均值,如果平均值低于某个值,无论是好数据还是好数据和坏数据的混合都无法创建(只有校准卷可以产生),然后它用 NaN 替换该窗口中的值并继续。

我意识到它可能会取出一些好的数据,这并不理想;但是,我想看看是否有人会有更好的流程或遇到类似问题并有有效的方法来解决它。

编辑:

我实际上意识到我正在实现的代码效率非常低,除了没有带出卷的独特特征。我现在可以运行并且运行速度相对较快的代码是,当它运行一次整个时间序列时,它将值持有者与之前和之后的值持有者进行比较,创建一个 7 点模板。我拥有的比较语句非常复杂,但是,它被设计为与只有 2 步 if 语句一样快。用于消除滚动的独特特征是这些值在 y 轴上以数据点的独特分布进行镜像,这意味着每 2 个点是一个正值,接下来的 2 个点是前 2 个点的负值值,在下一组 4 个数据点之间有一个中间点。

如果我之前没有说过,数据是关于等离子材料中的磁场变化的,当然,它可以在正值和负值之间波动,但这会给我的移除程序带来一个小问题,但绝对不是从长远来看会影响我的目标。

0 投票
1 回答
2379 浏览

c# - C#实时向图表添加点

我有一个关于向图表添加点的问题。

我的 Windows 窗体应用程序正在使用线程从另一台服务器获取 Y 值。每 500 毫秒我会得到一个新值(字符串),应该将其添加为一个点,但我不知道该怎么做。如果这些点将实时显示,而不仅仅是在结束过程之后显示,那就太好了。我认为这不是一个真正困难的问题,但我没有找到解决方案。

线:

配置和图表

感谢帮助 :)

0 投票
1 回答
97 浏览

python - 将 CSV 文件中的两列导入两个不同数组的问题

目前正在为我的高级更高计算项目编写战舰代码,我正处于最后一个障碍。我正在尝试导入一个名为“leaderboard.csv”的 CSV 文件,其中包含两列,在 csv 文件(名称和镜头)中设置了标题,里面的数据看起来像这样。


名称-镜头


姓名 1 - 19

姓名 2 - 24

很快... - ...


这部分代码接收数据并将所有名称存储在 aNames[] 中,然后将所有镜头存储在 aShots[] 中它按计划为 aNames 工作所有名称都存储在数组中,然后我可以使用它们但是aShots 数组是完全空的,它的代码或多或少是相同的,但标题已更改,仅此而已。代码看起来像这样。

在它之前的所有绒毛之后,文件的输出就像这样。


['Name1', 'Name2', 'Name3', 'Name4']

[]


我以前查看过我的解决方案,很多人说要使用 pandas 解决方案,但遗憾的是,这不是我的选择。我最好将其保留在(导入的)csv 模块中。提前致谢。

0 投票
1 回答
1210 浏览

php - WordPress:PHP致命错误...允许的内存大小用尽

致命错误:第 841 行 /var/www/web24689573/html/wp-includes/meta.php 中允许的内存大小为 536870912 字节已用尽(尝试分配 20480 字节)

我收到此错误的原因是,因为我在 WordPress 中处理了大量数据来设置价格等。目前有超过 5000 种产品,每种产品可以有多个价格(价格比较)。另外,每个产品都需要分配到一个类别和类似的东西。所以,我有很多通过 PHP 和 WordPress 的请求。

我知道这个错误不是来自脚本本身。我现在的问题是,你会建议我做什么?

我已经禁用了缓存和类似的东西,你可以在这里看到:

在这里您可以阅读为什么会出现此错误:http ://www.junaidbhura.com/wordpress-admin-fix-fatal-error-allowed-memory-size-error/

但我认为现在我几乎达到了 RAM (4GB) 的极限。非常感谢您的建议和提示。

问候

0 投票
6 回答
1603 浏览

c - 是否总是不建议读取未初始化的内存空间?

我正在重新创建整个标准 C 库,并且正在为strlen 开发一个实现,我希望它成为我所有其他str函数的基础。

我目前的实现如下:

我的问题是,当我通过一个赞时str

正如预期的那样,内存读取:

如果您查看我的实现,您可以预期我会得到 6 的回报——而不是 3(我以前的方法),这样我就可以检查是否strlen可能包括额外分配的内存。

这里要注意的是,我必须在初始化内存之外读取 1 个字节才能使最后一个循环条件在最终空终止符处失败——这是我想要的行为。然而,这通常被认为是不好的做法,并且有些自动错误。

即使您非常特别地打算读入垃圾值(以确保它不包含'\ 0'),在初始化值之外读取是否是一个坏主意?

如果是这样,为什么?

我明白那个:

不过,如果我只是想确保我已经达到了初始化值的结尾,我还是看不到问题......

另外,我意识到这个问题是可以避免的——我已经回避了一个设置为 1 的值,然后只读取初始化值——这不是重点,这更多是关于 C、运行时行为和最佳实践的基本问题;)

[编辑:]

对上一篇文章的评论:

好的。很公平 - 但关于“在初始化值后读取是否总是一个坏主意(故意操纵或运行时稳定性的危险)”这个问题 - 你有答案吗?请阅读已接受的答案,以了解问题性质的示例。我真的不需要修复这段代码,也不需要更好地理解数据类型、POSIX 规范或通用标准。我的问题与为什么可能存在这样的标准有关 - 为什么永远不要读取过去的初始化内存(如果存在这样的原因)可能很重要?在 GENERAL 中读取过去的初始化值的潜在后果是什么?

请大家 - 我试图更好地了解系统如何运作的各个方面,我有一个非常具体的问题。

0 投票
1 回答
1400 浏览

sql - 用 for 循环左连接

我需要回答

像这样。

我正在尝试使用左连接,但会发生此错误。

错误:无法将 NA 传递给 dbQuoteIdentifier()

另外:警告消息:在 field_types[] <- field_types[names(data)] 中:要替换的项目数不是替换长度的倍数

0 投票
1 回答
2210 浏览

python-3.x - 当变量数量未知时,在 Python 中使用“for”循环分配变量名

我是 Python 和 Stacks Overflow 的新手。我正在尝试将变量名称分配给 np.xml 中的一维列数组。矩阵数据集。总数据列的数量是未知的,所以我无法手动命名这些列。然而,我知道感兴趣的列从数据集的第三列开始,即它们从 -Data[:,2]- 开始。我的问题是;当列的总数未知时,如何为所有感兴趣的“列数组”分配变量名称?IE

我尝试使用 for 循环...!以下代码不起作用!

我的输入看起来像这样;

输入

所需的输出将是列值的一维数组,即

需要 1 暗淡。 数组输出

任何想法将不胜感激。

达尔文上的 Python 3.6.1 64 位、Qt 5.6.2、PyQt5 5.6

0 投票
0 回答
45 浏览

python - 从几年的数据中获取每个季节的数据

我正在使用 python 并试图计算不同季节的 SIC 趋势。所以我需要从 1979 年到 2009 年的所有月份中削减每个季节

然后结果表明

() 中的 IndexErrorTraceback (最近一次调用最后一次) ----> 1 sics[0::3,:,:]=sicm[11][:30,:,:]

/home/charcoalp/anaconda2/envs/pyn_test/lib/python2.7/site-packages/numpy/ma/core.pyc in setitem (self, indx, value) 3299 _mask = self._mask 3300 # 设置数据,然后掩码 -> 3301 _data[indx] = dval 3302 _mask[indx] = mval 3303 elif hasattr(indx, 'dtype') 和 (indx.dtype == MaskType):

IndexError:数组的索引过多

我的方法是每 1 月、2 月、3 月削减一次……并制作一个新数组来组合 3 个月作为同一季节的数据。问题可以解决还是我的方法不对?

非常感谢如果你能帮助我

0 投票
1 回答
26 浏览

sql - 确定列的数据类型 - SQL 选择

是否可以根据收到的结果确定 SQL 选择后每列的数据类型?我知道虽然 information_schema.columns 是可能的,但是我收到的数据来自多个表并且是联合在一起的并且数据被重命名。除此之外,我自己无法查看或使用此查询或执行其他查询。

我的工作是将收到的数据存储在另一个表中,但事先不知道我会收到什么。例如,我显然能够检查某个列是否包含数字或文本,但如果它最初存储为 TINYINT(1) 或 BIGINT(128),则不能。如何解决这个问题?澄清一下,如果源列和目标列的数据类型不完全相同也没关系,但我不想事先预留太多空间(或者太少)。

当我打字时,我意识到我提出的问题是错误的。处理所描述情况的最佳方法是什么?我考虑过在运行中更改表(例如,如果需要,增加大小),但这似乎有点,嗯,错误,而不是正确的方法。

谢谢

0 投票
2 回答
856 浏览

java - 是否可以让函数返回真、假或对象列表?

节目简介

我正在开发一个存储如下数据的程序:

- 事实:属性列表(或仅一个)和真/假值(称为“真”值)的组合。例如:

父母('约翰','小约翰'),真

其中John作为父母的属性John jr为真。我用于存储事实的代码:

- 规则:用于从事实中获取信息。它们的工作原理是让一个事实(我称之为派生事实)暗示另一个事实(我称之为隐含事实):

父母('x','y')=> 孩子('y','x')

这意味着通过将规则应用于上述事实,我们可以确定它John jr是 的孩子John

规则的属性:

消极性:

规则可以是“肯定的”(如果导数为真,则蕴含为真):

父母('x','y')=> 孩子('y','x')

或“否定”(如果导数为真,则蕴涵为假):

父母('x','y')=>不是孩子('y','x')

可逆性:

它们也可以是“可逆的”(如果导数是假的,则蕴含的是真/假):

不是父母('x','y')=> 孩子('y','x')

或(如果也是负数):

不是父母('x','y')=> 不是孩子('y','x')

或“不可逆”(如果导数为假,则隐含项未知):

不是父母('x','y')=>(未知)

我用来存储规则的代码如下所示:

信息集

事实和规则存储在InformationSets其中,将这些事实和规则捆绑在一起,以便用户可以“质疑”里面的信息。这可以通过两种不同的方式完成:

1.事实检查:检查事实是否属实。给定一个事实,这将根据该事实的真值返回真或假。例如,用户可以问:

父母('约翰','小约翰')?

并且程序将在以下情况下返回true

父母('小约翰','小约翰')?

将返回false

问号表示用户想要提出“事实核查”问题。

1.隐含检查:对于给定的事实(称为问题事实),这将返回可以应用于问题事实的每个规则的事实列表。例如:

父母('约翰','小约翰')=>

这将返回:

孩子('小约翰','约翰')

箭头表示用户想要提出“隐含检查”问题。

问题编码如下:

Operator我存储的字段内?=>根据用户想问的问题。

问题

我目前正处于需要编写向给定信息集提问的方法的地步。所以我需要一个方法,给出一个问题,一个信息集返回一个truefalse或者一个事实列表。据我所知,这在java中是不可能的。

我试图为每个有点工作的问题制作一个单独的方法,但这也会导致一个问题,因为我希望能够编写如下内容:

informationSet.ask(question);

并让该ask()方法处理这两种类型的问题,因此我不必检查用户在用户界面代码中提出的问题类型,而是让程序的后端解决它。

有什么好方法可以做到这一点?