LLaSA: A Multimodal Large Language Model for Human Activity Analysis Using Sensor Data

This repository hosts the code and datasets for LLaSA (Large Language and Sensor Assistant), a multimodal large language model that integrates inertial measurement units (IMUs) with natural language understanding. Built on LIMU-BERT and Llama, LLaSA is designed to interpret and respond to complex queries about human activities and motion by combining sensor data with contextual reasoning.

Key Features

1. Datasets

SensorCaps: A dataset of 35,960 IMU-derived activity narrations enriched with handcrafted features.
OpenSQA: An instruction-following dataset containing 179,727 question-answer pairs, tailored for sensor- and activity-aware contexts.

2. Model Architecture

LLaSA integrates IMU data with natural language processing capabilities, leveraging multimodal inputs for nuanced activity analysis.
Includes advanced hyperparameter tuning to optimize performance for contextual, sensor-based question-answering tasks.

3. Evaluation

Comprehensive evaluations, including human-led assessments, show that LLaSA outperforms GPT-3.5-Turbo and Vicuna-1.5-13b-16K in sensor-aware and context-sensitive question answering.
We employed a hyperparameter tuning method with GPT-assisted evaluation of question-answer pairs.

Applications

LLaSA is designed to support impactful research and practical applications in:

Personal Health: Monitoring activity patterns, providing actionable insights, and assisting in wellness routines.
Human-Computer Interaction: Context-aware assistance and enhanced user experience through activity interpretation.

Repository Contents

Code: Scripts for training, fine-tuning, and evaluating the LLaSA model.
Datasets: SensorCaps and OpenSQA Google Drive (Email address: llasa.data@gmail.com)
Documentation: Instructions for replicating experiments and integrating LLaSA into your projects.

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
LLaSA		LLaSA
data		data
eval		eval
fine-tuning		fine-tuning
.gitignore		.gitignore
EDA.ipynb		EDA.ipynb
Narration.ipynb		Narration.ipynb
OpenSQA-Parsing-per-Dataset.ipynb		OpenSQA-Parsing-per-Dataset.ipynb
README.md		README.md
Video Narration.ipynb		Video Narration.ipynb
epic_kitchen_qa_generation.py		epic_kitchen_qa_generation.py
gpt_sensor_event_narration.py		gpt_sensor_event_narration.py
limubert_to_sensorcaps_to_opensqa.ipynb		limubert_to_sensorcaps_to_opensqa.ipynb
llasa_demo.png		llasa_demo.png
llasa_v2_data_generation.py		llasa_v2_data_generation.py
llasa_v2_data_generation_pamap2.py		llasa_v2_data_generation_pamap2.py
llava_sensor_event_narration_and_qa.py		llava_sensor_event_narration_and_qa.py
sensorcaps_and_opensqa.py		sensorcaps_and_opensqa.py
sensorcaps_and_opensqa_batch.py		sensorcaps_and_opensqa_batch.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

LLaSA: A Multimodal Large Language Model for Human Activity Analysis Using Sensor Data

Key Features

1. Datasets

2. Model Architecture

3. Evaluation

Applications

Repository Contents

About

Releases

Packages

Languages

BASHLab/LLaSA

Folders and files

Latest commit

History

Repository files navigation

LLaSA: A Multimodal Large Language Model for Human Activity Analysis Using Sensor Data

Key Features

1. Datasets

2. Model Architecture

3. Evaluation

Applications

Repository Contents

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages