llama.cpp vs others: How to properly compare tokens on stream mode

Posted by celsowm@reddit | LocalLLaMA | View on Reddit | 0 comments

Hi ! How to properly compare tokens on stream mode ? For example, I got this from **llama.cpp on llama 3.1 8b q4** when got \[DONE\] token: `prompt eval time = 46.80 ms / 10 tokens ( 4.68 ms per token, 213.68 tokens per second) eval time = 14140.37 ms / 702 tokens ( 20.14 ms per token, 49.65 tokens per second) total time = 14187.17 ms / 712 tokens` and this on SGlang on llama 3.1 awq: `025-02-14 10:23:28,964 - INFO - flashinfer.jit: Finished loading JIT ops: cascade` `[2025-02-14 10:23:29 TP0] Decode batch. #running-req: 1, #token: 73, token usage: 0.00, gen throughput (token/s): 2.38, #queue-req: 0` `[2025-02-14 10:23:30 TP0] Decode batch. #running-req: 1, #token: 113, token usage: 0.00, gen throughput (token/s): 56.92, #queue-req: 0` `[2025-02-14 10:23:30 TP0] Decode batch. #running-req: 1, #token: 153, token usage: 0.00, gen throughput (token/s): 56.77, #queue-req: 0` `[2025-02-14 10:23:31 TP0] Decode batch. #running-req: 1, #token: 193, token usage: 0.01, gen throughput (token/s): 56.70, #queue-req: 0` `[2025-02-14 10:23:32 TP0] Decode batch. #running-req: 1, #token: 233, token usage: 0.01, gen throughput (token/s): 56.73, #queue-req: 0` `[2025-02-14 10:23:33 TP0] Decode batch. #running-req: 1, #token: 273, token usage: 0.01, gen throughput (token/s): 56.58, #queue-req: 0` `[2025-02-14 10:23:33 TP0] Decode batch. #running-req: 1, #token: 313, token usage: 0.01, gen throughput (token/s): 56.48, #queue-req: 0` `[2025-02-14 10:23:34 TP0] Decode batch. #running-req: 1, #token: 353, token usage: 0.01, gen throughput (token/s): 56.32, #queue-req: 0` `[2025-02-14 10:23:35 TP0] Decode batch. #running-req: 1, #token: 393, token usage: 0.01, gen throughput (token/s): 56.17, #queue-req: 0` `[2025-02-14 10:23:35 TP0] Decode batch. #running-req: 1, #token: 433, token usage: 0.01, gen throughput (token/s): 56.35, #queue-req: 0` `[2025-02-14 10:23:36 TP0] Decode batch. #running-req: 1, #token: 473, token usage: 0.01, gen throughput (token/s): 56.38, #queue-req: 0` `[2025-02-14 10:23:37 TP0] Decode batch. #running-req: 1, #token: 513, token usage: 0.01, gen throughput (token/s): 56.30, #queue-req: 0` `[2025-02-14 10:23:38 TP0] Decode batch. #running-req: 1, #token: 553, token usage: 0.02, gen throughput (token/s): 56.30, #queue-req: 0` `[2025-02-14 10:23:38 TP0] Decode batch. #running-req: 1, #token: 593, token usage: 0.02, gen throughput (token/s): 56.18, #queue-req: 0` `[2025-02-14 10:23:39 TP0] Decode batch. #running-req: 1, #token: 633, token usage: 0.02, gen throughput (token/s): 56.19, #queue-req: 0` `[2025-02-14 10:23:40 TP0] Decode batch. #running-req: 1, #token: 673, token usage: 0.02, gen throughput (token/s): 55.96, #queue-req: 0` How to properly compare them?

llama.cpp vs others: How to properly compare tokens on stream mode

Reply to Post

0 Comments