问题标签 [dummy-variable]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - 转换分类变量以在 sklean 中使用
我使用 pd.get_dummies 函数创建了一个稀疏矩阵。我拥有的矩阵是 700M 行 * 400 列,与其他人正在解决的许多问题相比,我认为它并没有那么大。但是分割成训练、验证、测试集可能需要很长时间。(我将使用逻辑回归和随机森林进行预测,它们支持稀疏矩阵。)无论如何有效地切片 sparseDataFrame 或对于我正在做的整个过程,无论如何都应该改进它?
举个例子,
这是我在将分类变量转换为虚拟变量之前的列列表:
这是每列中唯一值的数量:
使用 pd.get_dummies 后,它有 300+ 列,例如
我设置了 pd.get_dummies(input_df, sparse=True) 因为否则会引发内存错误。但是现在有了这种稀疏表示,一切都变得很慢。
更新:拆分为 train、val 和 test,只是以 6:2:2 随机分成 3 个部分
r - 用分类变量解释汇总统计
有了这个输出,我知道截距是当两个因子都为 0 时。我知道因子(V1)1 表示 V1=1,因子(V2)1 表示 V2=1。要获得仅 V1 = 1 的斜率,我将添加 5.1122 +(-0.4044)。但是,我想知道如何解释此输出中的 p 值。如果只是 V1 = 1,这是否意味着 p 值为 2.39e-12 + 0.376?如果是这样,我运行的每个模型只有在所有因素 = 0 时才有意义...
python - 来自虚拟变量的特征重要性(使用 get_dummies 或 dictVectorizer 后)
随机森林具有出色的特征重要性,但在使用 One Hot Encoder(例如preprocessing.OneHotEncoder、DictVectorizer或 Pandas 的get_dummies 后,我(自然)会为每个虚拟变量获得一个重要性。
有没有办法从其虚拟变量的重要性重建完整特征的特征重要性?
r - 如何将具有二元结果比率的数据集转换为适合 R 中逻辑回归的数据集
我有一个数据集,它总体上查看每组个人
等等
我想对受影响的结果进行逻辑回归,这本质上是一个二元响应变量。我可以自己重新创建数据看起来像
依此类推,基本上,为受影响的人创建一个虚拟变量,或者换句话说,创建一个数据集,为每个组创建一行,为每个未受影响的人创建一行,为每个人创建一行。我可以很容易地手动做到这一点,但是在 R 中是否有一种简单的方法可以将这种二进制比率数据转换为可以在 R 中的逻辑回归中使用的数据集
mysql - 如何在 Google BigQuery 中为数千个类别创建虚拟变量列?
我有一个包含 2 列的简单表:用户 ID 和类别,每个用户 ID 可以重复几个类别,如下所示:
我想“虚拟化”这个表:即创建一个输出表,其中每个类别都有一个由虚拟变量组成的唯一列(0/1,取决于用户 ID 是否属于该特定类别):
我的问题是我有数千个类别(不仅仅是本例中的 3 个),因此使用 CASE WHEN 语句无法有效地完成此操作。
所以我的问题是:
1) 有没有一种方法可以在不使用数千个 CASE WHEN 语句的情况下“虚拟化”Google BigQuery 中的 Category 列。
2) 这是 UDF 功能运行良好的情况吗?似乎是这样,但我对 BigQuery 中的 UDF 不够熟悉,无法解决这个问题。有人可以帮忙吗?
谢谢。
python - How to create dummy variable and then aggregate using scikit-learn?
I know it can be easily realized using the package pandas, but because it is too sparse and large (170,000 x 5000), and at the end I need to use sklearn to deal with the data again, I'm wondering if there is a way to do with sklearn. I tried the one hot encoder, but got stuck to associate dummies with the 'id'.
Update:
Now I'm here, and the 'id' is lost, how to do aggregation then?
r - 使用工作日将变量记录为虚拟变量
我有一个从星期一开始的变量,它列出了从 1 到 7 的每个日期。我想将其更改为工作日与周末,分别使用 0-1 来创建一个虚拟变量。我知道怎么做,但我不知道如何在代码的迭代中包含 6 AND 7。
例如,我放了以下内容:
我对上述内容的意图是让代码找到它说 6 和 7 的任何地方,然后用 1 替换它,对于航班数据集中的变量 dayweek,其他任何东西都是 0。上面的问题是它只做 6 而不是 7。我不知道如何在数据集中包含 7。我努力了:
而且我查看了其他常见的虚拟变量主题,但它们似乎都是简单的 1 到 0,比如男性/女性,我知道如何做到这一点。我可以做一个大于 5 的函数吗?下面的示例数据:
r - 通过 dplyr 中的多个聚合条件进行子集化
我希望有人知道 dplyr 中的一种简单/高效的方法,我可以在其中定义一个指示变量,如果在 Date X 上,IP 地址存在 >50 次,则取值为 1。数据是两列,一列是 IP 地址,另一列是相关的访问日期。
例如,我希望机器人列中的以下输出(假设日期/IP 组合 >=3)。
谢谢!
python - 如何在python的循环中创建虚拟变量?
所以我有一个带有一堆吃东西的数据框,其中一些我想变成一个虚拟变量,其中一些我想不理会,我想创建一种懒惰/更快的方法来做到这一点,而不仅仅是输入:
所以这是我在下面提出的代码。
但这只会返回变量 dummy 作为列表中第 n 个特征的虚拟数据帧。我在这里做错了什么?我认为对于每个循环,它都会从列表中获得一个新名称,相反,它看起来每次都将新的虚拟 DF 分配给变量虚拟。
非常感谢你们。
r - R:使用匿名函数创建虚拟变量
想象一下,您有一个包含分类变量的数据集,并且您想将其转换为虚拟变量:
我通常会这样做:
这工作正常。但是,现在假设您有许多这样的分类变量。您不想多次复制和粘贴这三行代码,而是要使用匿名函数。我尝试如下:
然后我会按如下方式触发它:
我试过了,什么也没发生。知道出了什么问题吗?我真的很喜欢使用匿名函数跨多个分类变量完成这项工作的想法。顺便说一句,请忽略我想通过使用粘贴为我的虚拟变量分配一个特定的名称。这无关紧要。谢谢!