问题标签 [traminer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 TraMineR 使用时间日记数据
我正在尝试使用 R 中的 TraMineR 使用时间日记数据(美国时间使用调查)进行序列分析。我将数据作为 SPELL 数据(id、开始时间、停止时间、事件),但在尝试时收到以下错误将其转换为 STS 或 SPS 数据:
as.matrix.data.frame(subset(data, , 2)) 中的错误:dims [product 0] 与对象 [9] 的长度不匹配
我相信这与我如何将时间(作为字符)转换为日期/时间类型有关。我相信 TraMineR 需要 POSIXlt 格式?
这是我的原始数据片段(trcode 是事件)
头(atus.act.short)
我使用 strptime 将字符串转换为 POSIXlt:
我还将 ID 减少到只有两位数
我最终得到一个新的数据框,如下所示:
然后我尝试创建一个序列对象[使用库(TraMineR)]
我收到以下错误:
as.matrix.data.frame(subset(data, , 2)) 中的错误:dims [product 0] 与对象 [9] 的长度不匹配
想法?
r - 使用 R 透视 CSV 文件
我有一个看起来像这样的文件:
我正在使用的数据集可以在https://github.com/aronlindberg/VOSS-Sequencing-Toolkit/blob/master/twitter_exploratory_analysis/twitter_events_mini.csv上访问。
我想为“repository_name”列中的每个条目创建一个表(例如bootstrap、hogan.js)。在该列中,我需要具有与该条目相对应的“类型”列中的数据(即,只有当前“类型”列中的行在当前“repository_name”列中也具有值“bootstrap”应属于新的“引导”列)。因此:
- 时间戳仅用于排序,不需要跨行同步(实际上它们可以删除,因为数据已经根据时间戳排序)
- 即使“IssuesEvent”重复 10 次,我也需要保留所有这些,因为我将使用 R 包 TraMineR 进行序列分析
- 列可以不等长
- 不同存储库的列之间没有关系(“repository_name”)
换句话说,我想要一个看起来像这样的表:
我怎样才能在 R 中做到这一点?
我使用 reshape 包的一些失败尝试可以在https://github.com/aronlindberg/VOSS-Sequencing-Toolkit/blob/master/twitter_exploratory_analysis/reshaping_bigqueries.R上找到。
google-bigquery - 如何从 BigQuery 中获取多个列?
我在 BigQuery 上查询 github 公共数据集。目前,我对所需内容的最佳查询如下所示。
这为我提供了来自该用户拥有的所有存储库(“repository_name”)的 repository_owner twitter(或任何其他用户)的所有事件(“type”),但在一个列中。
但是,我真正想要的是在列中包含所有事件(“类型”),每个存储库一列(“repository_name”),或多或少像这样:
时间戳(“created_at”)仅与排序机制相关。列不必等长,单行上的事件不必同时发生。
我将使用它来将事件放入 R 包 TraMineR 中进行序列分析。
我怎样才能做到这一点?
r - 以文本/表格格式显示 TraMineR (R) 树状图
我使用以下 R 代码生成带有基于 TraMineR 序列的标签的树状图(见附图):
完整的代码(包括数据集)可以在这里找到。
与树状图以图形方式提供的信息一样,以文本和/或表格格式获取相同的信息会很方便。如果我调用对象 clusterward(由 agnes 创建)的任何方面,例如“order”或“merge”,我会使用数字而不是我从中获得的名称来标记所有内容colnames(twitter_sequences)
。另外,我看不到如何输出在树状图中以图形方式表示的分组。
总结一下:如何获得文本/表格格式的集群输出,并使用 R 正确显示标签,理想情况下是使用 Traminer/集群库?
r - 使用 R 将 CSV 文件切割成不同的列
这是使用 R 透视 CSV 文件的后续问题。
在那个问题中,我想根据列(repository_name)中的值将单个列(类型)分成几列。使用了以下输入数据。
完整的 CSV 文件可在https://github.com/aronlindberg/VOSS-Sequencing-Toolkit/blob/master/twitter_exploratory_analysis/all_events.csv上找到。
这是 CSV 前 30 行的 dput():
提出此代码的@flodel 很好地回答了这个问题。
但是,现在我想对列表进行排序,以便每个 repo(repository_name)的事件(类型)每月按一列排序(从“created_at”列中提取),如下所示:
其他一些假设是:
- 时间戳仅用于排序,不需要跨行同步
- 即使“IssuesEvent”重复 10 次,我也需要保留所有这些,因为我将使用 R 包 TraMineR 进行序列分析
- 列可以不等长
- 不同存储库的列之间没有关系(“repository_name”)
- 同一存储库不同月份的数据完全独立
我怎样才能在 R 中做到这一点?
r - 在 R 中重新排列数据框
我有一个看起来像这样的数据框:
现在我想按月/年重新排列它(仍然按时间排序,并且仍然保持行的完整性)。这应该为每个月创建 3 列,然后将与该月相关的所有数据(created_at、actor_attributes_email 和类型)放在这 3 列中,以便我得到以下标题(对于数据中存在的所有月份):
我怎样才能在 R 中做到这一点?
包含整个数据集的 CSV 文件可以在这里找到: https ://github.com/aronlindberg/VOSS-Sequencing-Toolkit/blob/master/rubinius_rubinius_sequencing/rubinius_6months.csv
这是dput()
CSV 的第一行:
其他一些假设是:
- 即使“PushEvent”(例如)重复 10 次,我也需要保留所有这些,因为我将使用 R 包 TraMineR 进行序列分析
- 列可以不等长
- 不同月份的列之间没有关系
- 某月内的数据应以最早的时间优先排序
- 例如,2011 年 6 月和 2012 年 6 月的数据需要在不同的列中
r - 使用“by”创建多个图形标题
我正在尝试使用“for”的“by”来使用一个或两个组变量创建许多子图。两个组变量都是因子变量(性别是一个虚拟变量,父亲的社会地位有多个层次)。如何在图例或图表标题中添加组的级别(也称为名称)?
这是我正在使用的代码。
r - 在R中将多条输出打印到同一个CSV?
我正在使用 TraMineR 包。我正在将输出打印到 CSV 文件,如下所示:
可以在此处找到 dput(sequences.seq) 对象。
但是,这不会正确附加输出,而是会创建以下错误消息:
此外,它只给我最后一个命令的输出,所以它似乎每次都会覆盖文件。
是否可以在单个 CSV 文件中获取所有列,每个列都有一个列名(即熵、复杂性、湍流)
r - 如何在序列对象中创建组子集的序列索引图?
我有一个状态序列对象,其中包含一个具有 6 个级别的分组变量。我想创建 3 个序列索引图,一个用于 1 级和 2 级,一个用于 3 和 4 级,一个用于 5 和 6 级,以及一个图例作为单独的图。这些将被导出以在演示文稿中创建 3 张幻灯片。
seqIplot 中的 group= 选项不会对数据进行子集化。我尝试对数据框进行子集化以创建 3 个状态序列对象,但并非所有级别都具有相同的字母表,因此这不是一个可行的解决方案。绘制组子集的简单方法是什么?
r - 将多因素方差分析 [TRAMINER] 导出到乳胶
我尝试以乳胶表格的形式导出序列的多因素分析结果。我试图这样做,xtable()
但 R 说它## Heading ## 不能用这个功能来做......有人会有想法吗?