sampling in group not working properly #1170

xinyongtian · 2015-06-05T20:21:37Z

summary, the example dataset contain 2 columns, personID and CaseID. one perosnID has multi CaseID.

library(data.table)
#1. create dataset

weight=sample(c(0.1,0.2,0.7),100,replace=T)
dt=data.table(personID=sample(1:100,500,replace=T,prob=weight), CaseID=1:500)

table(dt$personID)
dt
#2.random sampling one case per person

s=dt[,list(CaseID=sample(CaseID,1)),by=personID];s

#3. check

library(sqldf)
sqldf("select * from s except select * from dt") #rows that not in origninal dataset.

xinyongtian closed this as completed Jun 6, 2015