ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation

This repository contains the official PyTorch self-supervised pretraining, finetuning, and evaluation codes for ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation.

The finetuning strategy is adopted from AST

Self-supervised pre-training

python -m torch.distributed.launch --nproc_per_node=4 --use_env main_ASiT.py --batch_size 20 --epochs 100 --data_path 'path/to/audio/files' --data-train 'path/to/json/file'

Self-supervised pre-trained models using ASiT can be downloaded from here

Data Preparation

We mainly employed AudioSet for ASiT pre-training which contains YouTube videos. Please follow link to download and process AudioSet data.

If you use this code for a paper, please cite:

@article{atito2022asit,

  title={ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation},
  
  author={Atito, Sara and Awais, Muhammad and Wang, Wenwu and Plumbley, Mark D and Kittler, Josef},
  
  journal={arXiv preprint arXiv:2211.13189},
  
  year={2022}
  
}

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
ASiT.png		ASiT.png
README.md		README.md
data_transformations.py		data_transformations.py
dataloader.py		dataloader.py
main_ASiT.py		main_ASiT.py
utils.py		utils.py
vision_transformer.py		vision_transformer.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation

Self-supervised pre-training

Data Preparation

About

Releases

Packages

Languages

Sara-Ahmed/ASiT

Folders and files

Latest commit

History

Repository files navigation

ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation

Self-supervised pre-training

Data Preparation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages