DRCap-lxq #133

Andreas-Xi · 2024-09-23T19:19:48Z

This PR add the recipes for the paper "DRCap: Decoding CLAP Latents with Retrieval-augmented Generation for Zero-shot Audio Captioning"

Created exmaples/drcap_zeroshot_aac to enable zero-shot AAC training.
Created src/slam_llm/models/CLAP to enable using the CLAP model as the encoder
Modified src/slam_llm/datasets/audio_dataset.py to enable RAG during training and during inference
Modified src/slam_llm/modes/encoder.py and src/slam_llm/models/slam_model.py to enable encoding via CLAP text/audio encoders

ddlBoJack · 2024-09-24T11:48:08Z

src/slam_llm/datasets/audio_dataset.py

Please use the audio_dataset.py at examples/drcap_zeroshot_aac/dataset and DO NOT modify this file.(You can only modify this file for stable features such as choosing mel/wav).

Created examples/drcap_zeroshot_aac/dataset/zs_audio_dataset.py and kept audio_dataset.py unchanged.

Andreas-Xi added 6 commits September 21, 2024 11:38

initial commit for drcap

e5dc39c

commit for exmaples/drcap

2c8cddd

commit for exmaples/drcap

4897187

minor fix

eedefb5

add recipes for DRCap

402a9da

add recipes for DRCap

ffb640f

Andreas-Xi requested a review from ddlBoJack September 24, 2024 11:41

ddlBoJack requested changes Sep 24, 2024

View reviewed changes

add custom dataset for drcap, keep original audio_dataset unchanged

72e5680

Andreas-Xi requested a review from ddlBoJack September 25, 2024 13:54

ddlBoJack merged commit e7a03c3 into X-LANCE:main Sep 26, 2024
0 of 2 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DRCap-lxq #133

DRCap-lxq #133

Andreas-Xi commented Sep 23, 2024

ddlBoJack Sep 24, 2024

Andreas-Xi Sep 25, 2024

DRCap-lxq #133

DRCap-lxq #133

Conversation

Andreas-Xi commented Sep 23, 2024

ddlBoJack Sep 24, 2024

Choose a reason for hiding this comment

Andreas-Xi Sep 25, 2024

Choose a reason for hiding this comment