firefly

Yet another multimodal video feature extractor.

Features

unimodal: audio-only, visual-only
multimodal: audio, visual, text
multi GPU: multiple GPU supports
multilingual: english, japanese VLM backbones
synchronization: same-dimensional audio-visual feature (sequence length should be same)

FFmpeg

apt install ffmpeg

Pytorch

pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 torchtext==0.16.0 --index-url https://download.pytorch.org/whl/cu118

Action

Optical flow

Audio-only

Image-text

Video-text

Audio-text

pytest tests

mypy firefly
ruff check firefly