Use latest ggml from upstream #177

MollySophia · 2024-07-16T07:14:44Z

What's changed:

Correctly compile and inference with latest ggml.
Regenerated expected-logits-*.bin using old code base, with GGML_SILU_FP16 turned off. (Upstream ggml uses FP32 for SiLU now, while the old one uses FP16 for SiLU by default, which causes some logits difference in tests.)
Slightly refactored CMakeLists.txt according to llama.cpp, and added option to enable Metal backend.
Changed the way of offloading layers to gpu using the new ggml backends and scheduler.
Use completely unmodified ggml submodule.
Disabled thread sanitizer. It's broken in llama.cpp too.

TODOs:

Test basic inference
Test gpu offloading with Apple Metal
Test gpu offloading with CUDA (And possibily fix any problems)
Test gpu offloading with other backends (e.g HIP, OpenBLAS) (May not be possible myself :P)
Update docs and README.md

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

It's broken in upstream llama.cpp too :P Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

...until ggml GroupNorm has the eps parameter Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

MollySophia · 2024-07-16T11:32:53Z

Update: offloading with CUDA doesn't work yet
I'm working on it

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

MollySophia added 10 commits July 16, 2024 14:58

Bump ggml url and version to upstream

9bfd936

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

fix include dir

04216d3

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

Fix inference with new ggml version

dbe2e30

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

Fix test_quantized_matmul_on_gpu

4e40275

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

refactor

4e06cc8

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

sanitizer: Disable broken tsan

f95fc83

It's broken in upstream llama.cpp too :P Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

gpu layer offloading using ggml backends and scheduler

d836048

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

Enable ggml Metal backend for macOS ci

271a90d

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

Temporarily use custom operator for GroupNorm

d26d6f3

...until ggml GroupNorm has the eps parameter Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

tests: Fix data array being partially uninitialized

30dc645

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

Fix gpu offloading with CUDA

02b6470

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

MollySophia force-pushed the rebase-ggml branch from 1cf7625 to 02b6470 Compare July 20, 2024 08:28

MollySophia added 2 commits July 20, 2024 17:25

Link hip libraries

9f80f65

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

Clean up

e13e0b2

Signed-off-by: Molly Sophia <mollysophia379@gmail.com>

LaylBongers approved these changes Jul 28, 2024

View reviewed changes

LaylBongers merged commit d622368 into RWKV:master Jul 28, 2024
13 checks passed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Use latest ggml from upstream #177

Use latest ggml from upstream #177

MollySophia commented Jul 16, 2024 •

edited

Loading

MollySophia commented Jul 16, 2024

Use latest ggml from upstream #177

Use latest ggml from upstream #177

Conversation

MollySophia commented Jul 16, 2024 • edited Loading

MollySophia commented Jul 16, 2024

MollySophia commented Jul 16, 2024 •

edited

Loading