TransCP's data orginization, a little different from VLTVG/TransVG
TransCP
├── data
│ ├── Flickr30k
│ │ ├── flickr30k-images
│ │ │ |── xxx.jpg
│ │ │ |── ...
│ ├── other
│ │ ├── COCO2014
│ │ │ |── train2014
│ │ │ │ |──COCO_train2014_xxx.jpg
│ │ │ │ |── ...
│ ├── referit
│ │ ├── images
│ │ |── xxx.jpg
├── split
│ ├── data
│ │ ├── flickr
│ │ ├── gref
│ │ ├── gref_umd
│ │ ├── referit
│ │ ├── unc
│ │ ├── unc+