Unable to generate constant output #175

rikoras · 2024-03-27T14:22:08Z

Prerequisites

Before submitting your issue, please ensure the following:

[√] I am running the latest version of PowerInfer. Development is rapid, and as of now, there are no tagged versions.
[√] I have carefully read and followed the instructions in the README.md.
[√] I searched using keywords relevant to my issue to make sure that I am creating a new issue that is not already open (or closed).

Problem description

I am conducting a series of performance analyses on PowerInfer. Out of consideration of stability, I need to obtain the same output after each execution. I have refered to #109, but it is not working.

Command

./main -m ../../models/llama-re-lu-7b-sparse/llama-7b-re-lu.powerinfer.gguf --temp 0 -n 256 --seed 0 -t 8 --top-k 1 -p "Here is a code to calculate the first 20 primes"

Current behaviour

./main -m ../../models/llama-relu- Log start
main: build = 1572 ( ggml_init_cublas: GGML_CUDA_FORCE_MMQ: ggml_init_cublas: CUDA_USE_TENSOR_CORES: ggml_init_cublas: found 1 Device 0: NVIDIA GeForce llama_model_loader: loaded llama_model_loader: - tensor 0: llama_model_loader: - tensor 1: llama_model_loader: - tensor 2: llama_model_loader: - tensor 3: llama_model_loader: - tensor 4: llama_model_loader: - tensor 5: llama_model_loader: - tensor 6: llama_model_loader: - tensor 7: llama_model_loader: - tensor 8: llama_model_loader: - tensor 9: llama_model_loader: - tensor 10: llama_model_loader: - tensor 11: llama_model_loader: - tensor 12: llama_model_loader: - tensor 13: llama_model_loader: - tensor 14: llama_model_loader: - tensor 15: llama_model_loader: - tensor 16: llama_model_loader: - tensor 17: llama_model_loader: - tensor 18: llama_model_loader: - tensor 19: llama_model_loader: - tensor 20: llama_model_loader: - tensor 21: llama_model_loader: - tensor 22: llama_model_loader: - tensor 23: llama_model_loader: - tensor 24: llama_model_loader: - tensor 25: llama_model_loader: - tensor 26: llama_model_loader: - tensor 27: llama_model_loader: - tensor 28: llama_model_loader: - tensor 29: llama_model_loader: - tensor 30: llama_model_loader: - tensor 31: llama_model_loader: - tensor 32: llama_model_loader: - tensor 33: llama_model_loader: - tensor 34: llama_model_loader: - tensor 35: llama_model_loader: - tensor 36: llama_model_loader: - tensor 37: llama_model_loader: - tensor 38: llama_model_loader: - tensor 39: llama_model_loader: - tensor 40: llama_model_loader: - tensor 41: llama_model_loader: - tensor 42: llama_model_loader: - tensor 43: llama_model_loader: - tensor 44: llama_model_loader: - tensor 45: llama_model_loader: - tensor 46: llama_model_loader: - tensor 47: llama_model_loader: - tensor 48: llama_model_loader: - tensor 49: llama_model_loader: - tensor 50: llama_model_loader: - tensor 51: llama_model_loader: - tensor 52: llama_model_loader: - tensor 53: llama_model_loader: - tensor 54: llama_model_loader: - tensor 55: llama_model_loader: - tensor 56: llama_model_loader: - tensor 57: llama_model_loader: - tensor 58: llama_model_loader: - tensor 59: llama_model_loader: - tensor 60: llama_model_loader: - tensor 61: llama_model_loader: - tensor 62: llama_model_loader: - tensor 63: llama_model_loader: - tensor 64: llama_model_loader: - tensor 65: llama_model_loader: - tensor 66: llama_model_loader: - tensor 67: llama_model_loader: - tensor 68: llama_model_loader: - tensor 69: llama_model_loader: - tensor 70: llama_model_loader: - tensor 71: llama_model_loader: - tensor 72: llama_model_loader: - tensor 73: llama_model_loader: - tensor 74: llama_model_loader: - tensor 75: llama_model_loader: - tensor 76: llama_model_loader: - tensor 77: llama_model_loader: - tensor 78: llama_model_loader: - tensor 79: llama_model_loader: - tensor 80: llama_model_loader: - tensor 81: llama_model_loader: - tensor 82: llama_model_loader: - tensor 83: llama_model_loader: - tensor 84: llama_model_loader: - tensor 85: llama_model_loader: - tensor 86: llama_model_loader: - tensor 87: llama_model_loader: - tensor 88: llama_model_loader: - tensor 89: llama_model_loader: - tensor 90: llama_model_loader: - tensor 91: llama_model_loader: - tensor 92: llama_model_loader: - tensor 93: llama_model_loader: - tensor 94: llama_model_loader: - tensor 95: llama_model_loader: - tensor 96: llama_model_loader: - tensor 97: llama_model_loader: - tensor 98: llama_model_loader: - tensor 99: llama_model_loader: - tensor 100: llama_model_loader: - tensor 101: llama_model_loader: - tensor 102: llama_model_loader: - tensor 103: llama_model_loader: - tensor 104: llama_model_loader: - tensor 105: llama_model_loader: - tensor 106: llama_model_loader: - tensor 107: llama_model_loader: - tensor 108: llama_model_loader: - tensor 109: llama_model_loader: - tensor 110: llama_model_loader: - tensor 111: llama_model_loader: - tensor 112: llama_model_loader: - tensor 113: llama_model_loader: - tensor 114: llama_model_loader: - tensor 115: llama_model_loader: - tensor 116: llama_model_loader: - tensor 117: llama_model_loader: - tensor 118: llama_model_loader: - tensor 119: llama_model_loader: - tensor 120: llama_model_loader: - tensor 121: llama_model_loader: - tensor 122: llama_model_loader: - tensor 123: llama_model_loader: - tensor 124: llama_model_loader: - tensor 125: llama_model_loader: - tensor 126: llama_model_loader: - tensor 127: llama_model_loader: - tensor 128: llama_model_loader: - tensor 129: llama_model_loader: - tensor 130: llama_model_loader: - tensor 131: llama_model_loader: - tensor 132: llama_model_loader: - tensor 133: llama_model_loader: - tensor 134: llama_model_loader: - tensor 135: llama_model_loader: - tensor 136: llama_model_loader: - tensor 137: llama_model_loader: - tensor 138: llama_model_loader: - tensor 139: llama_model_loader: - tensor 140: llama_model_loader: - tensor 141: llama_model_loader: - tensor 142: llama_model_loader: - tensor 143: llama_model_loader: - tensor 144: llama_model_loader: - tensor 145: llama_model_loader: - tensor 146: llama_model_loader: - tensor 147: llama_model_loader: - tensor 148: llama_model_loader: - tensor 149: llama_model_loader: - tensor 150: llama_model_loader: - tensor 151: llama_model_loader: - tensor 152: llama_model_loader: - tensor 153: llama_model_loader: - tensor 154: llama_model_loader: - tensor 155: llama_model_loader: - tensor 156: llama_model_loader: - tensor 157: llama_model_loader: - tensor 158: llama_model_loader: - tensor 159: llama_model_loader: - tensor 160: llama_model_loader: - tensor 161: llama_model_loader: - tensor 162: llama_model_loader: - tensor 163: llama_model_loader: - tensor 164: llama_model_loader: - tensor 165: llama_model_loader: - tensor 166: llama_model_loader: - tensor 167: llama_model_loader: - tensor 168: llama_model_loader: - tensor 169: llama_model_loader: - tensor 170: llama_model_loader: - tensor 171: llama_model_loader: - tensor 172: llama_model_loader: - tensor 173: llama_model_loader: - tensor 174: llama_model_loader: - tensor 175: llama_model_loader: - tensor 176: llama_model_loader: - tensor 177: llama_model_loader: - tensor 178: llama_model_loader: - tensor 179: llama_model_loader: - tensor 180: llama_model_loader: - tensor 181: llama_model_loader: - tensor 182: llama_model_loader: - tensor 183: llama_model_loader: - tensor 184: llama_model_loader: - tensor 185: llama_model_loader: - tensor 186: llama_model_loader: - tensor 187: llama_model_loader: - tensor 188: llama_model_loader: - tensor 189: llama_model_loader: - tensor 190: llama_model_loader: - tensor 191: llama_model_loader: - tensor 192: llama_model_loader: - tensor 193: llama_model_loader: - tensor 194: llama_model_loader: - tensor 195: llama_model_loader: - tensor 196: llama_model_loader: - tensor 197: llama_model_loader: - tensor 198: llama_model_loader: - tensor 199: llama_model_loader: - tensor 200: llama_model_loader: - tensor 201: llama_model_loader: - tensor 202: llama_model_loader: - tensor 203: llama_model_loader: - tensor 204: llama_model_loader: - tensor 205: llama_model_loader: - tensor 206: llama_model_loader: - tensor 207: llama_model_loader: - tensor 208: llama_model_loader: - tensor 209: llama_model_loader: - tensor 210: llama_model_loader: - tensor 211: llama_model_loader: - tensor 212: llama_model_loader: - tensor 213: llama_model_loader: - tensor 214: llama_model_loader: - tensor 215: llama_model_loader: - tensor 216: llama_model_loader: - tensor 217: llama_model_loader: - tensor 218: llama_model_loader: - tensor 219: llama_model_loader: - tensor 220: llama_model_loader: - tensor 221: llama_model_loader: - tensor 222: llama_model_loader: - tensor 223: llama_model_loader: - tensor 224: llama_model_loader: - tensor 225: llama_model_loader: - tensor 226: llama_model_loader: - tensor 227: llama_model_loader: - tensor 228: llama_model_loader: - tensor 229: llama_model_loader: - tensor 230: llama_model_loader: - tensor 231: llama_model_loader: - tensor 232: llama_model_loader: - tensor 233: llama_model_loader: - tensor 234: llama_model_loader: - tensor 235: llama_model_loader: - tensor 236: llama_model_loader: - tensor 237: llama_model_loader: - tensor 238: llama_model_loader: - tensor 239: llama_model_loader: - tensor 240: llama_model_loader: - tensor 241: llama_model_loader: - tensor 242: llama_model_loader: - tensor 243: llama_model_loader: - tensor 244: llama_model_loader: - tensor 245: llama_model_loader: - tensor 246: llama_model_loader: - tensor 247: llama_model_loader: - tensor 248: llama_model_loader: - tensor 249: llama_model_loader: - tensor 250: llama_model_loader: - tensor 251: llama_model_loader: - tensor 252: llama_model_loader: - tensor 253: llama_model_loader: - tensor 254: llama_model_loader: - tensor 255: llama_model_loader: - tensor 256: llama_model_loader: - tensor 257: llama_model_loader: - tensor 258: llama_model_loader: - tensor 259: llama_model_loader: - tensor 260: llama_model_loader: - tensor 261: llama_model_loader: - tensor 262: llama_model_loader: - tensor 263: llama_model_loader: - tensor 264: llama_model_loader: - tensor 265: llama_model_loader: - tensor 266: llama_model_loader: - tensor 267: llama_model_loader: - tensor 268: llama_model_loader: - tensor 269: llama_model_loader: - tensor 270: llama_model_loader: - tensor 271: llama_model_loader: - tensor 272: llama_model_loader: - tensor 273: llama_model_loader: - tensor 274: llama_model_loader: - tensor 275: llama_model_loader: - tensor 276: llama_model_loader: - tensor 277: llama_model_loader: - tensor 278: llama_model_loader: - tensor 279: llama_model_loader: - tensor 280: llama_model_loader: - tensor 281: llama_model_loader: - tensor 282: llama_model_loader: - tensor 283: llama_model_loader: - tensor 284: llama_model_loader: - tensor 285: llama_model_loader: - tensor 286: llama_model_loader: - tensor 287: llama_model_loader: - tensor 288: llama_model_loader: - tensor 289: llama_model_loader: - tensor 290: llama_model_loader: - tensor 291: llama_model_loader: - tensor 292: llama_model_loader: - tensor 293: llama_model_loader: - tensor 294: llama_model_loader: - tensor 295: llama_model_loader: - tensor 296: llama_model_loader: - tensor 297: llama_model_loader: - tensor 298: llama_model_loader: - tensor 299: llama_model_loader: - tensor 300: llama_model_loader: - tensor 301: llama_model_loader: - tensor 302: llama_model_loader: - tensor 303: llama_model_loader: - tensor 304: llama_model_loader: - tensor 305: llama_model_loader: - tensor 306: llama_model_loader: - tensor 307: llama_model_loader: - tensor 308: llama_model_loader: - tensor 309: llama_model_loader: - tensor 310: llama_model_loader: - tensor 311: llama_model_loader: - tensor 312: llama_model_loader: - tensor 313: llama_model_loader: - tensor 314: llama_model_loader: - tensor 315: llama_model_loader: - tensor 316: llama_model_loader: - tensor 317: llama_model_loader: - tensor 318: llama_model_loader: - tensor 319: llama_model_loader: - tensor 320: llama_model_loader: - tensor 321: llama_model_loader: - tensor 322: llama_model_loader: - tensor 323: llama_model_loader: - tensor 324: llama_model_loader: - tensor 325: llama_model_loader: - tensor 326: llama_model_loader: - tensor 327: llama_model_loader: - tensor 328: llama_model_loader: - tensor 329: llama_model_loader: - tensor 330: llama_model_loader: - tensor 331: llama_model_loader: - tensor 332: llama_model_loader: - tensor 333: llama_model_loader: - tensor 334: llama_model_loader: - tensor 335: llama_model_loader: - tensor 336: llama_model_loader: - tensor 337: llama_model_loader: - tensor 338: llama_model_loader: - tensor 339: llama_model_loader: - tensor 340: llama_model_loader: - tensor 341: llama_model_loader: - tensor 342: llama_model_loader: - tensor 343: llama_model_loader: - tensor 344: llama_model_loader: - tensor 345: llama_model_loader: - tensor 346: llama_model_loader: - tensor 347: llama_model_loader: - tensor 348: llama_model_loader: - tensor 349: llama_model_loader: - tensor 350: llama_model_loader: - tensor 351: llama_model_loader: - tensor 352: llama_model_loader: - tensor 353: llama_model_loader: - tensor 354: llama_model_loader: - kv 0: llama_model_loader: - kv 1: llama_model_loader: - kv 2: llama_model_loader: - kv 3: llama_model_loader: - kv 4: llama_model_loader: - kv 5: llama_model_loader: - kv 6: llama_model_loader: - kv 7: llama_model_loader: - kv 8: llama_model_loader: - kv 9: llama_model_loader: - kv 10: llama_model_loader: - kv 11: llama_model_loader: - kv 12: llama_model_loader: - kv 13: llama_model_loader: - kv 14: llama_model_loader: - kv 15: llama_model_loader: - kv 16: llama_model_loader: - kv 17: llama_model_loader: - type f32: llama_model_loader: - type llama_model_load: PowerInfer llm_load_vocab: special tokens llm_load_print_meta: format llm_load_print_meta: arch llm_load_print_meta: vocab type llm_load_print_meta: n_vocab llm_load_print_meta: n_merges llm_load_print_meta: n_ctx_train llm_load_print_meta: n_embd llm_load_print_meta: n_head llm_load_print_meta: n_head_kv llm_load_print_meta: n_layer llm_load_print_meta: n_rot llm_load_print_meta: n_gqa llm_load_print_meta: f_norm_eps llm_load_print_meta: f_norm_rms_eps llm_load_print_meta: f_clamp_kqv llm_load_print_meta: f_max_alibi_bias llm_load_print_meta: n_ff llm_load_print_meta: rope scaling llm_load_print_meta: freq_base_train llm_load_print_meta: freq_scale_train llm_load_print_meta: n_yarn_orig_ctx llm_load_print_meta: rope_finetuned llm_load_print_meta: model type llm_load_print_meta: model ftype llm_load_print_meta: model params llm_load_print_meta: model size llm_load_print_meta: general.name llm_load_print_meta: BOS llm_load_print_meta: EOS llm_load_print_meta: UNK llm_load_print_meta: PAD llm_load_print_meta: LF token llm_load_print_meta: sparse_pred_threshold llm_load_sparse_model_tensors: ggml ctx size = llm_load_sparse_model_tensors: llm_load_sparse_model_tensors: llm_load_sparse_model_tensors: mem required llm_load_sparse_model_tensors: .................................. invoking powerinfer Python /home/rikora/anaconda3/envs/meta_k llm_load_gpu_split_with_budget: llm_load_gpu_split: error: offload_ffn_split: applying ................................ llm_load_gpu_split: offloaded llama_new_context_with_model: n_ctx llama_new_context_with_model: freq_base llama_new_context_with_model: llama_kv_cache_init: offloading llama_kv_cache_init: offloading llama_kv_cache_init: VRAM llama_new_context_with_model: kv self size llama_build_graph: non-view llama_build_graph: *************** llama_build_graph: not all llama_build_graph: this can llama_build_graph: build llama_build_graph: ref: data-hovercard-type="commit" data-hovercard-url="https://github.com/SJTU-IPADS/PowerInfer/commit/47e9d7edf9ffb334d0362a611703cc80f36dc7f3/hovercard" href="https://github.com/SJTU-IPADS/PowerInfer/commit/47e9d7edf9ffb334d0362a611703cc80f36dc7f3">47e9d7e)
9.4.0-1ubuntu1~20.04.2) 9.4.0 for x86_64-linux-gnu
no
yes
CUDA devices:
RTX 4060 Ti, compute capability 8.9
meta data with 18 key-value pairs and 355 tensors from ../../models/llama-relu-7b-sparse/llama-7b-relu.powerinfer.gguf (version GGUF V3 (latest))
token_embd.weight f16 [ 4096, 32000, 1, 1 ]
blk.0.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.0.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.0.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.0.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.0.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.0.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.0.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.0.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.0.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.1.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.1.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.1.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.1.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.1.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.1.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.1.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.1.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.1.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.2.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.2.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.2.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.2.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.2.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.2.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.2.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.2.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.2.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.3.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.3.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.3.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.3.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.3.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.3.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.3.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.3.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.3.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.4.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.4.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.4.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.4.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.4.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.4.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.4.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.4.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.4.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.5.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.5.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.5.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.5.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.5.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.5.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.5.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.5.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.5.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.6.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.6.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.6.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.6.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.6.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.6.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.6.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.6.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.6.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.7.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.7.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.7.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.7.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.7.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.7.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.7.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.7.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.7.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.8.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.8.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.8.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.8.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.8.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.8.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.8.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.8.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.8.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.9.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.9.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.9.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.9.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.9.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.9.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.9.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.9.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.9.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.10.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.10.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.10.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.10.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.10.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.10.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.10.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.10.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.10.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.11.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.11.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.11.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.11.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.11.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.11.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.11.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.11.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.11.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.12.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.12.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.12.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.12.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.12.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.12.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.12.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.12.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.12.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.13.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.13.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.13.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.13.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.13.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.13.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.13.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.13.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.13.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.14.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.14.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.14.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.14.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.14.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.14.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.14.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.14.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.14.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.15.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.15.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.15.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.15.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.15.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.15.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.15.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.15.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.15.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.16.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.16.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.16.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.16.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.16.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.16.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.16.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.16.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.16.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.17.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.17.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.17.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.17.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.17.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.17.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.17.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.17.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.17.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.18.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.18.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.18.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.18.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.18.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.18.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.18.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.18.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.18.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.19.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.19.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.19.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.19.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.19.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.19.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.19.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.19.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.19.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.20.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.20.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.20.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.20.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.20.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.20.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.20.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.20.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.20.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.21.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.21.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.21.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.21.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.21.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.21.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.21.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.21.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.21.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.22.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.22.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.22.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.22.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.22.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.22.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.22.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.22.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.22.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.23.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.23.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.23.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.23.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.23.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.23.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.23.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.23.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.23.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.24.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.24.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.24.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.24.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.24.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.24.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.24.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.24.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.24.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.25.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.25.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.25.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.25.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.25.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.25.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.25.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.25.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.25.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.26.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.26.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.26.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.26.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.26.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.26.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.26.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.26.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.26.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.27.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.27.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.27.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.27.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.27.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.27.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.27.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.27.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.27.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.28.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.28.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.28.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.28.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.28.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.28.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.28.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.28.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.28.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.29.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.29.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.29.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.29.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.29.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.29.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.29.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.29.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.29.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.30.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.30.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.30.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.30.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.30.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.30.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.30.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.30.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.30.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.31.attn_q.weight f16 [ 4096, 4096, 1, 1 ]
blk.31.attn_k.weight f16 [ 4096, 4096, 1, 1 ]
blk.31.attn_v.weight f16 [ 4096, 4096, 1, 1 ]
blk.31.attn_output.weight f16 [ 4096, 4096, 1, 1 ]
blk.31.ffn_gate.weight f16 [ 4096, 11008, 1, 1 ]
blk.31.ffn_up.weight f16 [ 4096, 11008, 1, 1 ]
blk.31.ffn_down_t.weight f16 [ 4096, 11008, 1, 1 ]
blk.31.attn_norm.weight f32 [ 4096, 1, 1, 1 ]
blk.31.ffn_norm.weight f32 [ 4096, 1, 1, 1 ]
output_norm.weight f32 [ 4096, 1, 1, 1 ]
output.weight f16 [ 4096, 32000, 1, 1 ]
blk.0.fc1.weight f16 [ 4096, 1024, 1, 1 ]
blk.0.fc2.weight f16 [ 1024, 11008, 1, 1 ]
blk.1.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.1.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.2.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.2.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.3.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.3.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.4.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.4.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.5.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.5.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.6.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.6.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.7.fc1.weight f16 [ 4096, 1536, 1, 1 ]
blk.7.fc2.weight f16 [ 1536, 11008, 1, 1 ]
blk.8.fc1.weight f16 [ 4096, 1536, 1, 1 ]
blk.8.fc2.weight f16 [ 1536, 11008, 1, 1 ]
blk.9.fc1.weight f16 [ 4096, 1024, 1, 1 ]
blk.9.fc2.weight f16 [ 1024, 11008, 1, 1 ]
blk.10.fc1.weight f16 [ 4096, 1024, 1, 1 ]
blk.10.fc2.weight f16 [ 1024, 11008, 1, 1 ]
blk.11.fc1.weight f16 [ 4096, 1024, 1, 1 ]
blk.11.fc2.weight f16 [ 1024, 11008, 1, 1 ]
blk.12.fc1.weight f16 [ 4096, 1280, 1, 1 ]
blk.12.fc2.weight f16 [ 1280, 11008, 1, 1 ]
blk.13.fc1.weight f16 [ 4096, 1280, 1, 1 ]
blk.13.fc2.weight f16 [ 1280, 11008, 1, 1 ]
blk.14.fc1.weight f16 [ 4096, 1536, 1, 1 ]
blk.14.fc2.weight f16 [ 1536, 11008, 1, 1 ]
blk.15.fc1.weight f16 [ 4096, 1536, 1, 1 ]
blk.15.fc2.weight f16 [ 1536, 11008, 1, 1 ]
blk.16.fc1.weight f16 [ 4096, 1536, 1, 1 ]
blk.16.fc2.weight f16 [ 1536, 11008, 1, 1 ]
blk.17.fc1.weight f16 [ 4096, 1536, 1, 1 ]
blk.17.fc2.weight f16 [ 1536, 11008, 1, 1 ]
blk.18.fc1.weight f16 [ 4096, 1536, 1, 1 ]
blk.18.fc2.weight f16 [ 1536, 11008, 1, 1 ]
blk.19.fc1.weight f16 [ 4096, 1792, 1, 1 ]
blk.19.fc2.weight f16 [ 1792, 11008, 1, 1 ]
blk.20.fc1.weight f16 [ 4096, 1792, 1, 1 ]
blk.20.fc2.weight f16 [ 1792, 11008, 1, 1 ]
blk.21.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.21.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.22.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.22.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.23.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.23.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.24.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.24.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.25.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.25.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.26.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.26.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.27.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.27.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.28.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.28.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.29.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.29.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.30.fc1.weight f16 [ 4096, 2048, 1, 1 ]
blk.30.fc2.weight f16 [ 2048, 11008, 1, 1 ]
blk.31.fc1.weight f16 [ 4096, 1536, 1, 1 ]
blk.31.fc2.weight f16 [ 1536, 11008, 1, 1 ]
general.architecture str
general.name str
llama.context_length u32
llama.embedding_length u32
llama.block_count u32
llama.feed_forward_length u32
llama.rope.dimension_count u32
llama.attention.head_count u32
llama.attention.head_count_kv u32
llama.attention.layer_norm_rms_epsilon f32
general.file_type u32
tokenizer.ggml.model str
tokenizer.ggml.tokens arr
tokenizer.ggml.scores arr
tokenizer.ggml.token_type arr
tokenizer.ggml.bos_token_id u32
tokenizer.ggml.eos_token_id u32
tokenizer.ggml.padding_token_id u32
65 tensors
f16: 290 tensors
model loaded. Sparse inference will be used.
definition check successful ( 259/32000 ).
= GGUF V3 (latest)
= llama
= SPM
= 32000
= 0
= 2048
= 4096
= 32
= 32
= 32
= 128
= 1
= 0.0e+00
= 1.0e-05
= 0.0e+00
= 0.0e+00
= 11008
= linear
= 10000.0
= 1
= 2048
= unknown
= 7B
= mostly F16
= 7.57 B
= 14.11 GiB (16.00 BPW)
= syx
token = 1 ''
token = 2 ''
token = 0 ''
token = 0 ''
= 13 '<0x0A>'
= 0.00
0.13 MB
using CUDA for GPU acceleration
offloaded layers from VRAM budget(7090864128 bytes): 33/32
= 14446.15 MB
VRAM used: 5939.52 MB
..................................................................
module to generate gpu split for 566.86 MiB of VRAM
otoba/bin/python3: No module named powerinfer
error: failed to generate gpu split
failed to generate gpu split, an empty one will be used
augmentation to model - please wait ...
done (6.02 ms)
0.00 MiB of FFN weights to GPU
= 512
= 10000.0
freq_scale = 1
v cache to GPU
k cache to GPU
kv self = 256.00 MB
= 256.00 MB
tensors processed: 548/836
*************************************************
non-view tensors have been processed with a callback
indicate an inefficiency in the graph implementation
with LLAMA_OFFLOAD_DEBUG for more info
class="issue-link js-issue-link" data-error-text="Failed to load title" data-id="1966666112" data-permission-text="Title is private" data-url="https://github.com/ggml-org/llama.cpp/issues/3837" data-hovercard-type="pull_request" data-hovercard-url="/ggml-org/llama.cpp/pull/3837/hovercard" href="https://github.com/ggml-org/llama.cpp/pull/3837">ggml-org/llama.cpp#3837
*************************************************
compute buffer total size = 6.91 MB
VRAM scratch buffer: 5.34 MB
total VRAM used: 6200.86 MB (model: 5939.52 MB, context: 261.34 MB)

system_info: n_threads = 8 / 24 | AVX = 1 | AVX2 = 1 | AVX512 = 0 | AVX512_VBMI = 0 | AVX512_VNNI = 0 | FMA = 1 | NEON = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 1 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 |
sampling:
repeat_last_n = 64, repeat_penalty = 1.100, frequency_penalty = 0.000, presence_penalty = 0.000
top_k = 1, tfs_z = 1.000, top_p = 0.950, min_p = 0.050, typical_p = 1.000, temp = 0.000
mirostat = 0, mirostat_lr = 0.100, mirostat_ent = 5.000
generate: n_ctx = 512, n_batch = 32, n_predict = 256, n_keep = 0

Here is a code to calculate the first 20 primes.

def prime_sieve(n):
    primes = []
    for i in range(1, n+1):
        if not (i % 2) and not i in primes:
            primes.append(i)
    return primes

[end of text]

llama_print_timings: load time = 1080.21 ms
llama_print_timings: sample time = 6.95 ms / 68 runs ( 0.10 ms per token, 9785.58 tokens per second)
llama_print_timings: prompt eval time = 253.00 ms / 14 tokens ( 18.07 ms per token, 55.34 tokens per second)
llama_print_timings: eval time = 5391.85 ms / 67 runs ( 80.48 ms per token, 12.43 tokens per second)
llama_print_timings: total time = 5668.73 ms
Log end

For the second execution with the same former part, I got different output text:

Here is a code to calculate the first 20 primes.

def prime_sieve(n):
    """
    Generate a list of primes up to n, using the sieve of Eratosthenes.
    
    Args:
        n (int): The upper limit for the primes.
        
    Returns:
        A list of primes up to n.
    """
    primes = [True] * (n // 2) + [False] * (n // 2)
    
    # Mark all multiples of each prime as false.
    for i in range(1, n // 2):
        if primes[i // 2]:
            primes[i // 2] = False
            
    # Mark the first prime as true.
    primes[0] = True
    
    return [primes[i // 2]] * (n // 2) + [False] * (n // 2)

[end of text]

I wonder if the predictors have an effect on sampling.

Environment

CPU:R9-5900x
GPU:4060Ti 8G
DRAM:32G
CUDA:12.2.91
model: PowerInfer/ReluLLaMA-7B-PowerInfer-GGUF

This inconsistent does NOT appear on another device with:

CPU:i3-12100k
GPU:2080Ti 22G
DRAM:16G
same as preceding

The text was updated successfully, but these errors were encountered:

YixinSong-e · 2024-03-27T14:42:54Z

Actually this is because of our sparse down operator in FFN. We utilize axpy to implement a matmul operator. In this process, the output is composed of many concurrent add operator, which will introduce slight fluctuation. For a stable output, it's advised to use PowerInfer with pure CPU inference using a single thread.

rikoras · 2024-04-01T08:43:39Z

Actually this is because of our sparse down operator in FFN. We utilize axpy to implement a matmul operator. In this process, the output is composed of many concurrent add operator, which will introduce slight fluctuation. For a stable output, it's advised to use PowerInfer with pure CPU inference using a single thread.

That makes it very clear! Thanks!

rikoras added the bug-unconfirmed Unconfirmed bugs label Mar 27, 2024

YixinSong-e closed this as completed Apr 1, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Unable to generate constant output #175

Unable to generate constant output #175

rikoras commented Mar 27, 2024

YixinSong-e commented Mar 27, 2024 •

edited

Loading

rikoras commented Apr 1, 2024

Unable to generate constant output #175

Unable to generate constant output #175

Comments

rikoras commented Mar 27, 2024

Prerequisites

Problem description

Command

Current behaviour

Environment

YixinSong-e commented Mar 27, 2024 • edited Loading

rikoras commented Apr 1, 2024

YixinSong-e commented Mar 27, 2024 •

edited

Loading