问题标签 [data-management]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sed - 使用 sed 来识别行中的模式,而不是列
GNU sed 可以用来根据行识别模式吗?或者换句话说,如何在您使用 sed 到 ID 的模式中插入换行符?
例如,在以下数据集中(实际上要大得多),我有一个错误,当我搜索重复项时应该删除,但不是因为两行中的信息略有不同(此时无关紧要) )。
在这种情况下,我想从原始文件中完全删除错误。换句话说,如果在我的文件中,两行rs####
相互跟随,我想删除这两个副本,以及它们后面的六行. 将它们重新定位到新文件会很好,但最关键的是它们已从原始文件中删除。
就像是,
也许
? 任何想法将不胜感激!
r - 在 1 个数据框中删除具有多个市场的市场数据
我需要的是一种检查我的 df 以查看我是否有足够的数据来运行某些功能的方法。如果该特定市场没有足够的数据,我想知道如何删除整个“市场”。例如,我想删除所有 AD3,因为当我需要 4 行数据时,我只有 2 行完整的数据。在我的实际案例中,我希望删除任何少于 23 行数据的市场,并且我有 100 多个市场。
这是dput()
我的数据的一小部分。
我的 100 多个市场在 1 个数据框中。因此,如果我有 22 行数据,我需要删除与该特定“市场”名称关联的所有 22 行。
r - 对于在时间 1 和时间 2 之间没有发生任何变化的情况,删除所有 id 的情况
我有两个包含一系列案例的数据框。一个来自时间 1,一个来自时间 2。我正在寻找一种方法来快速识别时间 1 和时间 2 之间发生变化的情况,但我有点卡住了。
这是一个例子。所以,我有一个从时间 1 开始的数据框,
它看起来像这样,
时间两滚
并且发生了一些变化,
这是时间 2,
我现在正在寻找一种快速删除案例的方法,所有 id,对于在时间 1 和时间 2 之间的案例(任何行)中没有发生任何变化的情况。在具体示例中,只有 id #2 没有变化发生在时间 1 和时间 2 之间。
我正在寻找一个看起来像这样的最终结果,
任何帮助,将不胜感激。
resources - ClassLoader - 加载和保存数据
希望有人可以帮助我。
据我了解,使用 ClassLoader 是加载内容的最可靠方式。
如果您在“[jar bundle]/resources/abc.png”中有一个文件..您可以通过以下方式加载它:
加载很简单。
储蓄是我的动力。
我有一个程序在运行时收集数据,在退出时保存该数据,然后在下次加载数据并继续添加。
我认为最简单的解决方案是保存回 jar 包中,以便 ClassLoader 可以获取它们。这甚至可能吗?还是推荐?
我不介意将我的资源放在 jar 之外,只要我不必求助于“文件”来获取它们并保存到它们。(除非它可以干净地完成)
如果您可以 ../ 从 ClassLoader 正在查找的位置返回一个,那么从实际包含 jar 文件的目录中干净地获取数据将很容易
有任何想法吗?
sql - ruby 按最后一个值对混合类的多维数组进行排序,一个字符串
所以我从几个数据库中获取了一堆信息来获取一组值,它们的名称和顺序是:
所以我有一个数组,我把它放到一个表格视图中,我需要按部门值重新排列数组,而不改变内部数组的任何顺序,这样在表中所有程序集都在一起,所有 GMBEAD BLAST 都是一起等...
具有值的数组示例如下所示:
是的,我尝试了一些.sort
或.sort_by
方法,但是使用数组中的数字,当我输入排序方法时,它甚至不会让我运行程序。
sorting - 在 Stata 代码中订购 varlist
我将以下内容视为编程练习,而不是基于统计的做事方式。
基本上,我想N
用一个预测变量运行逻辑回归,然后为每个变量存储变量名称及其chi-squared
值。完成所有预测后,我想显示按卡方从最高到最低排序的每个预测变量。
到目前为止,我有以下内容:
如何通过最后一行返回的卡方对每个变量进行排序,然后显示变量列表,其卡方从最高卡方到最低卡方排序?
需要明确的是,如果以下 varlists 是由上述结果产生的:
然后我想得到类似以下的东西:
或者,或者,
r - 面板数据:如何指定引用“变化前后的年数”的变量?
这就是我的时间序列、横截面数据的结构:
如果有正变化,则变量变化为“1”,如果有负变化,则为“2”。
问题
我正在努力创建两个新变量:
(1) 一个叫做“趋势”的变量
通俗地说,这个变量应该代表“对于每个组(国家年),如果变化 = 1,趋势 = 1,但直到变化 = 2 ”。
(2) 一个叫做“时间”的变量
此变量应指定积极趋势(变化 =1)之前和之后的年份。
也就是说,最终数据集应如下所示:
我认为可以使用“拆分”来分隔组,例如
但是:这两行之间的命令是什么?
此行将生成一个序列
data.time$trend <- lapply(data.time$trend, seq)
但是:如何将其限制为积极趋势,即 data$trend==1?
任何想法都非常受欢迎!非常感谢。
r - 为 R 中的每个级别选择前 80 个观测值
我有一个如下所示的数据集:
我想为每个 TID 选择所有变量的前 80 个观察值。到目前为止,我只能使用以下代码对第一个 TID 执行此操作:
我怎样才能为所有其他 TID 做到这一点?
谢谢!
r - How can I split a multiply imputed dataset created in Amelia?
I have imputed missing values using Amelia thereby creating 5 multiply imputed datasets. Now, I would like to split this multi-dataset, e.g. one set for year => 1990 and one set for year =<1990. Any ideas how I can do so? Many thanks!
categorical-data - 在Stata中对分类变量进行排序和合并
我正在Stata中将两个数据集合并在一起,并提出了一个潜在的问题。
我计划在sort
两个数据集共有的几个分类变量上以完全相同的方式对每个数据集进行处理。然而,几个分类变量在一个数据集中存在的类别比另一个数据集中的类别多。我已经足够小心以确保两个数据集的编码匹配(例如,红色在数据集 A 和 B 中都编码为 1,但数据集 A 只有红色、绿色和蓝色,而数据集 B 有红色、绿色、蓝色和黄色)。
如果我对sort
每个数据集以相同的方式和generate
一个id
变量 ( gen id = _n
)merge
进行处理,我会遇到任何问题吗?