我想选择表中具有特定字段属性的所有行。即该字段是已知的十万个字符串之一。
我正在使用 R 发送查询。所以我有如下代码:
my_samp <- sample(unique_ids, replace=T, size=10^6)
my_conn <- dbConnect(MySQL(),user='me',dbname='my_db')
query <- paste('SELECT blah1, blah2,...,blah900 FROM my_table WHERE blah1=',paste(my_samp,collapse=' OR ',sep=''),sep='')
res1 <- dbSendQuery(my_conn, query)
my_data <- fetch(res1,n=-1)
dbDisconnect(my_conn)
但是,我担心 R 解释器或 mysql 无法正确处理该字符串。我也怀疑这是低效的。有更清洁的解决方案吗?
我无法使用 dbReadTable 将整个表直接读入 R,因为它太大了。
我计划通过分叉过程来完成数千次 - 统计引导。
如果字符串在 my_samp 中重复,则查询中需要有重复记录。