我有一个包含 5 列的 100 万条记录的数据框。
unique_index,name,company_name,city_id,state_id
列 ,company_name
有 100k 条唯一记录。这遵循幂律。前 5000 名company_names
涵盖了 70% 的记录。
我想从对前 5000 名数据做出贡献的公司和剩余的集合中抽取相同数量的样本。
我试过了pd.qcut(df['company_name'],[0.25,1]
。这给了我以下错误:
TypeError: unorderable types: str() <= float()
。不能qcut
应用于字符串?