问题标签 [longitudinal]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
112 浏览

r - 通过 R 中的多个变量对纵向数据集进行子集化

我有一个长格式的纵向数据集,其中(除其他外)变量:ID、wave、当前工作、慢性病的发生和自评健康:

对于每个参与者来说,观察的数量是不相等的,因为有些人退出了,而其他人则加入了后来的浪潮。当我正在研究工作条件对健康的影响时,我想从数据集中删除从未工作过的参与者,但保留那些(可能)因健康原因停止工作的参与者。换句话说,工作 = 0,慢性或 SRH = 1 的参与者。

希望这是有道理的。

0 投票
1 回答
899 浏览

r - 如何在 R 中进行边际模型分析?

问题。我想在 R 中进行边际模型分析——我认为它有时被称为总体平均模型、边际多级模型或边际线性回归模型。但是,我在 stackoverflow、Google 或 Youtube 上找不到任何关于如何在 R 中专门执行此操作的信息。

背景。我说的是此处此处的分析因素 以及这些PowerPoint 幻灯片中所述的边际模型。CrossValidated 上有一个人在 SPSS 和 R 中提到了这个分析,但他没有显示他的实际代码,他的问题也没有得到回答。不确定是否应该在包装中完成。nlme

SPSS 代码。我已经在 CrossValidated 的其他地方描述了这些数据的性质,但基本上,我们感兴趣的是通过个性(测量一次)来预测参与者的情绪(在两种不同的条件下测量两次)。这是我在 SPSS 中使用的代码。

问题。如何在 R 中做到这一点?

0 投票
3 回答
300 浏览

r - 如何在R中通过ID计算分类法术的数量和持续时间

我有一个纵向数据集,每月记录一个人的就业状况,持续 45 个月。我希望能够创建两个变量以添加到此数据集中:1)每个人“失业”的总持续时间 2)失业法术的数量

理想情况下,它也会跳过 NA 而不会中断咒语

我创建了一个示例数据集以使事情变得简单:

我尝试了 Roland 在计算 R 中的持续时间时提出的解决方案,但我不确定如何调整它以通过 ID 为我提供结果并处理 NA。

我所追求的是实现这一目标(这里的持续时间是几个月,但可以是几周或几天):

任何帮助,任何链接/文献/示例将不胜感激。

谢谢你。

0 投票
5 回答
166 浏览

r - 选择具有所有纵向测量值的行

我有一个带有 ID、Wave (Wave1-4) 和 Score 的纵向数据集。这是具有相同结构的示例数据。原始数据的长度约为 2000 条,总共有 500 名参与者,采用长格式。

我想选择所有四个“分数”测量值都可用的“ID”。换句话说,我想选择所有 4 波都有“分数”的参与者行。我一直在尝试选择具有所有“Wave”中数据的“ID”的行。到目前为止,我的试用一直基于这个想法:如果参与者拥有所有四个测量值,则 ID 将在数据中出现四次。这就是为什么我试图计算 ID 的数量,

尽管它向我显示了数据中出现的每个 ID 的数量,但我无法选择相应的行。

因为原始数据的长度不同,是长格式。“逻辑索引的长度必须是 1 或 2637,而不是 828” 我需要一个长格式数据来进一步分析,所以我不想改变它。

0 投票
1 回答
2240 浏览

sas - 使用 PROC GLIMMIX 分析重复测量数据

我正在使用 PROC GLIMMIX 分析有关特定性事件的重复测量数据。原始数据来自对约 400 人的每周日记研究。在每周他们报告他们最近的性接触的行为。我们还有关于他们人口统计的基线数据。收集了12周的观察,完成率很高。

我想创建一个混合效果模型,但我不确定这在 SAS 中究竟是如何完成的。我想测试特定事件因素的影响以及一些个人水平的人口统计数据,并希望获得每个感兴趣因素的优势比。结果是事件期间是否使用了药物,解释因素将是年龄、性别等以及事件的特征(即伴侣的艾滋病毒状况),伴侣是否是常规性伴侣, ETC..

我正在使用的代码遵循以下模式:

PROC GLIMMIX DATA=work.dataset oddsratio; CLASS VISIT_NUMBER PARTICIPANT_ID BINARY_EVENTLEVEL_OUTCOME BINARY_EVENTLEVEL_EXPLANATORY_FACTOR CATEGORICAL_PERSONLEVEL_EXPLANATORY_FACTOR; MODEL BINARY_EVENTLEVEL_OUTCOME = BINARY_EVENTLEVEL_EXPLANATORY CATEGORICAL_PERSONLEVEL_EXPLANATORY_FACTOR /DIST=binary link=logit CL S ddfm=kr; RANDOM ?????; RUN;

  • ?????的选项1:残差/主题=PARTICIPANT_ID
  • ?????的选项2:拦截/主题=PARTICIPANT_ID
  • ????? 的选项 3:VISIT_NUM / subject=PARTICIPANT_ID 剩余类型=ar(1) INTERCEPT / subject=VISIT_NUM(PARTICIPANT_ID)
  • ?????的选项4:其他?

我也不清楚我是否应该在我的模型语句中使用 ddfm=kr 或在我的 proc 语句中使用 method=laplace - 两者都已在其他地方推荐用于这种重复测量分析。

我遇到了几个潜在的建模选项,这些选项通常会给出类似的结果,但选项 1 给出了事件级别的统计显着结果,而其他选项给出了不显着的结果。包含 ddfm=kr 使得感兴趣的结果更加显着。method=laplace 不允许选项 1。

0 投票
0 回答
578 浏览

r - 具有单个固定效应和月/年固定效应的 R 中的泊松回归

我想使用固定效应泊松回归模型来检查选择加入 2 种不同的方案(在我的模型中指定为假人)是否会导致锻炼增加。
我有3 年时间跨度的纵向数据(数据按月测量),N=100,000+(每个 ID 有不同数量的观察/跟踪的月数)。ID 可以在任何时候选择两种不同的方案,他们可以只选择一种(方案 1)或两者都不选择,或者同时或在不同的时间点同时选择两种(方案 1,然后是方案 2)。

我想包括个人的固定效应(在选择两种不同的方案时使用个人内部的变化)。
我还想包括月/年固定效应来控制运动模式中的时间趋势/季节性。我正在考虑为此在给定年份的每个特定月份使用一组虚拟变量。

我想指定我的模型如下:

y(i,my) = Λ(i) + γ(my) + βScheme1(i,my) + βScheme2(i,my) + ε(i,my)

所以y(i,my)是指 ID i 在 y 年 m 月执行的因变量运动水平。

Λ(i)是个体特定的固定效应。

γ(my)是时间固定效应。

如果ENT i 在 m 月及之后选择加入该计划,则计划 1 和计划 2 分别取值为 1 。

仅供参考:真的很抱歉,我不得不将每个变量的定义放在上面等式的括号中

下面是我最初使用glm()仅将方案 1 和 2 作为因变量的函数运行的内容,并且效果很好。

我的问题是我不确定如何编写代码/做什么才能在我的回归中包含Λ(i)γ(my)。任何帮助将不胜感激,谢谢!

0 投票
2 回答
160 浏览

r - 纵向数据集中的折叠行

我有一个数据集,其中有多行都对应于基线度量。我想按记录 id 折叠这些行,以便每个人只有一行用于基线测量。这意味着我必须折叠所有变量,其中一些是字符变量。我该怎么做呢?这是我尝试过的:

我正在使用的示例数据框如下所示:

data.frame(id = rep(99, 5), time = c(rep(0, 3), 3, 6), v1 = c("blk", NA, NA, 2, 3), v2 = c(NA, 1, NA, 4, 5), v3 = c(NA, NA, 1, 6, 7))

我需要它看起来像这样:

我不知道 summarise 是否适合在这里使用。基本上我遇到的一个问题是字符的总和,我认为这就是为什么汇总不起作用。理想情况下,我真正想做的就是将时间 = 0 的所有行中的信息按 id 组合起来,这样每个唯一 id 都有一行时间 = 0。

(对不起,我不确定如何让 data.frame 命令打印数据框?)

请帮忙!

编辑:示例 2

这与我的数据看起来很接近。我能说的不起作用如下:

1)字符变量丢失 2)二进制变量中的 0 丢失(即使使用 != is.na(.) 而不是 != 0 2a)这是原子的,我将其更改为因子,现在它似乎可以工作3) 连续变量 2.29 丢失了 4) 有趣且此处未显示的是整数值,但似乎保留了非 0 但整数全部消失了——这是因为如果结构是原子的,则整数无法读取?

结论:我认为我需要从 atomic 更改所有值(它们是从 SPSS 以这种方式带入 r 的)?在此期间我会试试这个。

编辑2:问题不是数字与原子。我把所有的数字都变成了数字,整数仍然没有出现。

0 投票
3 回答
48 浏览

r - 如何在两个分组变量中聚合数据(组中组)?

我想以长格式聚合数据。我有一个 ID 变量、一个年份变量和另外两个有趣的变量。我现在想在一年内汇总一个人的变量。

这是我的原始数据框的样子:

这就是我想要的方式:

每当一个人在一年内有两个测量值时(例如,B 人在 2010 年和 2011 年有两个测量值),我想在这个人和每年内汇总 x 和 y 值。后来我想要一个数据框,它每年只包含一行,但包含关于 x 和 y 的所有信息。

像这样:

你有什么建议如何做到这一点?非常感激您的帮忙!

0 投票
1 回答
39 浏览

r - 变量筛选连续结果、分类预测变量、负 p 值

我正在尝试使用大型表达式数据集(沿列的所有分类变量)来找到一组好的分类变量来预测二元结果。每个受试者在几个但不是所有时间点(研究中的 T1-T7)进行测量。每个主题都有一个特定的 ID。为此,我决定使用MXM::MMPC.timeclass(). 但是,它会产生负 p 值。据我了解p值......根据定义,概率不能为负。他们真的不能,这很明显。

我已经尝试MMPC.timeclass()并进行了广泛的文献搜索,以找到另一种可能合适的方法,但目前还没有任何结果。

预期结果应包括 p 值(在 0-1 范围内),甚至更好,包括筛选过程中每个变量的某种类型的排名。我以前用过VariableScreening::ScreenLD(),但这是一个分类结果,所以它不适合数据。

0 投票
1 回答
42 浏览

r - 在纵向数据中定义情节

我有一个数据集,我想在其中定义“剧集”。如果温度升高或降低至少 15 分钟,则定义为发作。有没有办法在不手动进行的情况下构建它?

这是我的数据结构:

提前致谢。