- Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
- This repository is based on the repo.
- This code uses STAIR Captions for training Japanese image captioning model.
- So you should download STAIR Captions and COCO datasets
- Dowload datasets & unzip & place it in
./
(./STAIR-captions
). - Download COCO datasets & unzip & place it in
./
(./train2014
,./val2014
). - Run
python create_stair_wmap.py > stair_word_map.json
- You can download
stair_word_map.json
, checkpoints, andcoco_word_map.json
from here!
python train.py -wm=stair_word_map.json
-
Alias :
sh train.sh
-
The
-en
option allows you to train on COCO datasets with the same data set partitioning method as STAIR Captions
python train.py -wm=XXX.json --en
- If facing
RuntimeError: unable to open shared memory object
, runulimit -n 65536
to increse the open files limit.65536
is kinda arbitrary.
python caption.py --model=stair_checkpoints/best.pth.tar -wm=stair_word_map.json --img=<any image>
output: 警察 の バイク が 展示 さ れ て いる
output: トイレ の 便座 が 上がっ て いる
output: テーブル の 上 に 料理 が 並ん で いる
output: 時計 塔 の 上 に 時計 が つい て いる
output: 白い 服 を 着 た 男性 が 食事 を し て いる
output: 男性 が キッチン で 料理 を し て いる
- a-PyTorch-Tutorial-to-Image-Captioning
This work is licensed under the MIT License. To view a copy of this license, see LICENSE.