🔍 Active Visual Search with DINOv3 + Reinforcement Learning

Learning efficient visual search strategies using foundation models and deep RL for robotics applications.

🎯 Project Overview

This project implements an active visual search system where an RL agent learns to efficiently find target objects in large images using minimal observations. The agent controls a limited viewport (like a robot camera) and must intelligently navigate to locate specific objects.

Key Technologies:

DINOv3 (Meta AI): State-of-the-art vision foundation model for semantic feature extraction
Deep Q-Network (DQN): Reinforcement learning for learning optimal search policies
CIFAR-10: Dataset for training and evaluation

Real-world Applications:

🤖 Robot visual search (warehouse automation, inspection)
🚁 Drone object detection with limited FOV
📱 Mobile robot navigation with active perception
🏭 Industrial quality inspection

📁 Project Structure

active-visual-search/
├── README.md                           # This file
├── PROJECT_PLAN.md                     # Detailed PRD and roadmap
├── ARCHITECTURE.md                     # Technical architecture
├── PROGRESS.md                         # Session tracking
├── requirements.txt                    # Python dependencies
│
├── config/
│   └── default_config.yaml             # Configuration parameters
│
├── src/
│   ├── environment.py                  # Search environment (Gym-like)
│   ├── models/
│   │   ├── dinov3_encoder.py          # DINOv3 wrapper
│   │   ├── dqn_agent.py               # DQN agent implementation
│   │   └── policy_network.py          # Q-Network architectures
│   ├── training/
│   │   ├── trainer.py                 # Training loop (TODO)
│   │   └── replay_buffer.py           # Experience replay (in dqn_agent.py)
│   ├── evaluation/
│   │   └── evaluator.py               # Evaluation metrics (TODO)
│   └── utils/
│       ├── data_loader.py             # CIFAR-10 loading (TODO)
│       └── visualization.py           # Visualization tools (TODO)
│
├── notebooks/
│   ├── 01_demo_environment.ipynb      # Interactive environment demo
│   ├── 02_visualize_dinov3.ipynb      # DINOv3 features (TODO)
│   └── 03_results_analysis.ipynb      # Training results (TODO)
│
├── experiments/
│   └── logs/                          # TensorBoard logs
│
└── checkpoints/                       # Saved models

🚀 Quick Start

1. Installation

Requirements:

Python 3.8+
CUDA-capable GPU (recommended: RTX 4090, RTX 3090, etc.)
8GB+ GPU VRAM

# Clone repository
git clone <repository-url>
cd comvis2

# Install dependencies
pip install -r requirements.txt

# Verify installation
python -c "import torch; print(f'PyTorch: {torch.__version__}'); print(f'CUDA: {torch.cuda.is_available()}')"

2. Test Components

# Test DINOv3 encoder
python src/models/dinov3_encoder.py

# Test Q-Network
python src/models/policy_network.py

# Test environment (coming soon)
python src/environment.py

3. Run Demo Notebook

jupyter notebook notebooks/01_demo_environment.ipynb

4. Train Agent (Coming Soon)

python src/training/trainer.py --config config/default_config.yaml

📊 How It Works

Problem Setup

┌─────────────────────────────────────┐
│     512x512 Canvas (Search Space)   │
│                                      │
│    🚗  ✈️     🐱                    │
│                                      │
│           🦌     🐦                  │
│                                      │
│  ┌────────┐                         │
│  │ 64x64  │  ← Agent's viewport     │
│  │ Window │                          │
│  └────────┘                         │
└─────────────────────────────────────┘

Agent's Task: Find the target object (e.g., "airplane" ✈️) in minimum steps.

Actions: Up, Down, Left, Right, "Found!"

Observations: 64x64 RGB viewport + position + target class

Architecture

Current Viewport (64x64x3)
    ↓
DINOv3 Encoder (frozen)
    ↓
Features (384-dim)  +  Position (2D)  +  Target Embedding (384-dim)
    ↓
Q-Network (MLP)
    ↓
Q-values for 5 actions
    ↓
Action Selection (ε-greedy)

🎓 Key Concepts

1. Active Perception

Instead of processing entire high-resolution images (expensive), the agent learns to:

Move its viewport intelligently
Focus on promising regions
Minimize search time

2. DINOv3 Features

Pretrained on 142M images (self-supervised)
Captures rich semantic information
No fine-tuning needed (transfer learning)
Enables generalization to new objects

3. Deep Q-Learning

Learns state-action value function Q(s, a)
Experience replay for stable training
Target network to reduce correlation
Epsilon-greedy exploration

📈 Expected Results

Success Metrics:

✅ Success Rate: 70%+ (vs ~20% random)
✅ Average Steps: <15 (vs ~35 random)
✅ Training Time: <1 hour on RTX 4090

Visualizations:

Search trajectory animations
Attention heatmaps
Success rate curves
Search strategy analysis

🛠️ Configuration

Edit config/default_config.yaml to customize:

environment:
  canvas_size: [512, 512]   # Search space
  window_size: [64, 64]     # Viewport size
  max_steps: 50             # Episode timeout

agent:
  learning_rate: 0.0001
  gamma: 0.95
  epsilon_decay: 0.995

training:
  num_episodes: 1000

📝 Development Roadmap

See PROGRESS.md for detailed session-by-session tracking.

Phase 1: MVP ✅ (Current)

Phase 2: Training & Evaluation

Complete training pipeline
Evaluation metrics
Visualization tools
First successful training run

Phase 3: Analysis & Optimization

Hyperparameter tuning
Advanced visualizations
Performance analysis
Documentation & demos

Future Enhancements

📚 Documentation

PROJECT_PLAN.md: Comprehensive PRD with requirements, timeline, and success criteria
ARCHITECTURE.md: Technical deep dive into system design
PROGRESS.md: Session-by-session progress tracking for continuity

🤝 Contributing

This is a research/portfolio project. Suggestions and improvements welcome!

📄 License

MIT License - feel free to use for learning and research.

🙏 Acknowledgments

Meta AI for DINOv3 foundation model
OpenAI for Gym interface inspiration
PyTorch team for excellent deep learning framework

📧 Contact

For questions or collaboration: [Your contact info]

Status: 🚧 In Development (Phase 1 - MVP)

Last Updated: 2025-11-06

Name		Name	Last commit message	Last commit date
Latest commit History 58 Commits
Custom and Distributed Training with TensorFlow		Custom and Distributed Training with TensorFlow
config		config
notebooks		notebooks
site/en/tutorials/generative		site/en/tutorials/generative
src		src
3d recons prac.ipynb		3d recons prac.ipynb
ARCHITECTURE.md		ARCHITECTURE.md
C3W2_Assignment.ipynb		C3W2_Assignment.ipynb
C3W3_Assignment.ipynb		C3W3_Assignment.ipynb
C3W4_Assignment.ipynb		C3W4_Assignment.ipynb
C3_W3_Lab_1_VGG16_FCN8_CamVid.ipynb		C3_W3_Lab_1_VGG16_FCN8_CamVid.ipynb
C3_W3_Lab_2_OxfordPets_UNet.ipynb		C3_W3_Lab_2_OxfordPets_UNet.ipynb
C3_W3_Lab_3_Mask_RCNN_ImageSegmentation.ipynb		C3_W3_Lab_3_Mask_RCNN_ImageSegmentation.ipynb
C3_W4_Lab_1_FashionMNIST_CAM.ipynb		C3_W4_Lab_1_FashionMNIST_CAM.ipynb
C3_W4_Lab_3_Saliency.ipynb		C3_W4_Lab_3_Saliency.ipynb
C3_W4_Lab_4_GradCam.ipynb		C3_W4_Lab_4_GradCam.ipynb
C4W1_Assignment.ipynb		C4W1_Assignment.ipynb
C4W2_Assignment.ipynb		C4W2_Assignment.ipynb
C4W3_Assignment.ipynb		C4W3_Assignment.ipynb
C4W4_Assignment.ipynb		C4W4_Assignment.ipynb
C4_W1_Lab_1_Neural_Style_Transfer.ipynb		C4_W1_Lab_1_Neural_Style_Transfer.ipynb
C4_W1_Lab_2_Fast_NST.ipynb		C4_W1_Lab_2_Fast_NST.ipynb
C4_W2_Lab_1_FirstAutoEncoder.ipynb		C4_W2_Lab_1_FirstAutoEncoder.ipynb
C4_W2_Lab_2_MNIST_Autoencoder.ipynb		C4_W2_Lab_2_MNIST_Autoencoder.ipynb
C4_W2_Lab_3_MNIST_DeepAutoencoder.ipynb		C4_W2_Lab_3_MNIST_DeepAutoencoder.ipynb
C4_W2_Lab_4_FashionMNIST_CNNAutoEncoder.ipynb		C4_W2_Lab_4_FashionMNIST_CNNAutoEncoder.ipynb
C4_W2_Lab_5_FashionMNIST_NoisyCNNAutoEncoder.ipynb		C4_W2_Lab_5_FashionMNIST_NoisyCNNAutoEncoder.ipynb
C4_W3_Lab_1_VAE_MNIST.ipynb		C4_W3_Lab_1_VAE_MNIST.ipynb
C4_W4_Lab_1_First_GAN.ipynb		C4_W4_Lab_1_First_GAN.ipynb
C4_W4_Lab_2_First_DCGAN.ipynb		C4_W4_Lab_2_First_DCGAN.ipynb
C4_W4_Lab_3_CelebA_GAN_Experiments.ipynb		C4_W4_Lab_3_CelebA_GAN_Experiments.ipynb
PROGRESS.md		PROGRESS.md
PROJECT_PLAN.md		PROJECT_PLAN.md
README.md		README.md
README_RAYTRACING.md		README_RAYTRACING.md
Untitled.ipynb		Untitled.ipynb
raytracing_simulation.py		raytracing_simulation.py
requirements.txt		requirements.txt
requirements_raytracing.txt		requirements_raytracing.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

🔍 Active Visual Search with DINOv3 + Reinforcement Learning

🎯 Project Overview

📁 Project Structure

🚀 Quick Start

1. Installation

2. Test Components

3. Run Demo Notebook

4. Train Agent (Coming Soon)

📊 How It Works

Problem Setup

Architecture

🎓 Key Concepts

1. Active Perception

2. DINOv3 Features

3. Deep Q-Learning

📈 Expected Results

🛠️ Configuration

📝 Development Roadmap

Phase 1: MVP ✅ (Current)

Phase 2: Training & Evaluation

Phase 3: Analysis & Optimization

Future Enhancements

📚 Documentation

🤝 Contributing

📄 License

🙏 Acknowledgments

📧 Contact

About

Uh oh!

Releases

Packages

Contributors 2

Uh oh!

Languages

MinwooKim1990/comvis2

Folders and files

Latest commit

History

Repository files navigation

🔍 Active Visual Search with DINOv3 + Reinforcement Learning

🎯 Project Overview

📁 Project Structure

🚀 Quick Start

1. Installation

2. Test Components

3. Run Demo Notebook

4. Train Agent (Coming Soon)

📊 How It Works

Problem Setup

Architecture

🎓 Key Concepts

1. Active Perception

2. DINOv3 Features

3. Deep Q-Learning

📈 Expected Results

🛠️ Configuration

📝 Development Roadmap

Phase 1: MVP ✅ (Current)

Phase 2: Training & Evaluation

Phase 3: Analysis & Optimization

Future Enhancements

📚 Documentation

🤝 Contributing

📄 License

🙏 Acknowledgments

📧 Contact

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Uh oh!

Languages

Packages