OCR (Optimal Character Recognition) 기술은 사람이 직접 쓰거나 이미지 속에 있는 문자를 컴퓨터가 인식할 수 있도록 하는 기술로 글자 검출 (text detection), 글자 인식 (text recognition), 정렬기 (Serializer) 등의 task로 이루어져 있다. 본 프로젝트는 OCR task 중 ‘글자 검출’ task만을 대회 형식으로 진행했던 프로젝트이다.
다른 대회와는 다르게 Model 수정이 불가하고 Data 추가, Augmentation 변경만 가능했던 Data-centric Competiton이다.
- Input: 글자가 포함된 전체 이미지
- Output: bbox 좌표가 포함된 UFO Format
민선아 | 백경륜 | 이도연 | 이효석 | 임동우 |
---|---|---|---|---|
@seonahmin | @baekkr95 | @omocomo | @hyoseok1223 | @Dongwoo-Im |
Wandb Image Logging | Augmentation 코드 작성 및 실험 |
Inference 시각화 Dataset 실험 |
Datatset 시각화 Dataset 코드 작성 및 실험 |
Baseline 코드 작성 Wandb Metric Logging |
- Public: 4등, f1 0.7133, recall 0.6183, precision 0.8428
- Private: 6등, f1 0.6833, recall 0.5883, precision 0.8148
- Dataset : ICDAR 19, AIHub Dataset 추가 확보 및 실험
- Augmentation : Geometric, Color transfortm 및 Multi-scale Augmentation 실험
-
ICDAR dataset
- 2017 : https://rrc.cvc.uab.es/?ch=8
- 2019 : http://icdar2019.org/
-
AIhub dataset
- 한국어 글자체 이미지 : https://aihub.or.kr/aidata/133
- 다양한 형태의 한글 문자 OCR : https://aihub.or.kr/aidata/33987
- 야외 실제 촬영 한글 이미지 : https://aihub.or.kr/aidata/33985
-
Albumentation