GPU/hardware advice for an HP DL380 Gen10
Posted by Decent-Occasion-2720@reddit | LocalLLaMA | View on Reddit | 3 comments
Need your GPU/hardware advice for an HP DL380 Gen10 in homelab
I’m an (quite new) local LLM enthusiast, and with the new models realeased last month, that encouraged me to upgrade my setup. But i don’t want to blow my budget on hardware.
Currently, I have an HP DL380 gen 10 with two Xeon Gold 6242 (16 cores each) and 144 GB of DDR4 2933 MHz. It only supports PCIe Gen 3, and I added an RTX 3060 12 GB.
I had a 5060 Ti 16 GB, better, but not as good as expected.
Unfortunately, the 5060 died ten days later. I returned it to the vendor and was reimbursed.
What is the best (cheapest) option, since that's for homelab every crazy things are possible even they was not recommended in HPE documentation.....
Options considering:
- another 3060 12 GB, cheapest
- 5060 Ti 16 GB, because 16 GB
- 5070 12 GB
- 9060 XT 16 GB
- Intel Arc A770 16 GB (Resizable BAR needed ??)
- upgrade CPUs to xeon 8260 24 core
(My targeted use case: Qwen 3.5 122B with LlamaCPP + OpenCode, up to 20 tok/s on a 100k-token context. Currently, I reach \~10 tok/s with the 122B Q2 XL and still get very usable results despite quantization.)
I've read many speculation on GPU on HPE server, so if you have or had experience with GPUs on HPE DL380, please share your experience !
qubridInc@reddit
Cheapest real upgrade: add a second RTX 3060 12GB (VRAM pooling + llama.cpp tensor-split) or jump to a used 24GB card (like 3090/P40), because VRAM matters far more than newer gen GPUs for 122B workloads.
MelodicRecognition7@reddit
if there are enough PCIe lanes for 2 GPUs and other peripherals in 1 CPU then consider removing the 2nd CPU to eliminate NUMA issues. As for GPUs you should use same models - either 2x 3060 or 2x 5060, otherwise the 5060 will be limited by the speed of 3060.
Decent-Occasion-2720@reddit (OP)
J'ai réussi éliminer les problèmes gestion de numa en conservant le deuxieme cpu.
Le système fonctionne sur node le cpu 1 avec 8Go de ram, et je démarre llama avec numactl sur le node cpu 0 avec 136Go de ram.
(Mais j'ai pu constater en démarrant par erreur llamacpp sur le cpu node 1 en utilisant la ram du node 0 que mixer la ram est moins problématique que d'avoir des process qui tourne sur les deux cpu.)
A priori je peux libérer jusqu'a 3 pcie 16x par node cpu si je change de riser. Actuellement je n'ai qu'un riser sur le node 0 avec un 16x et deux 8x de libre, car il y déjà a un support pour mettre deux nvme et une carte resaux.
La 5060 n'utilise pas toutes les voies pcie (seulement 8x) donc je pourrais la mettre sur un de mes 8x libres sans regretter de perte de performance par rapport à ce que je peux espérer de mon matériel. En revanche les autres gpu semble utiliser un pcie 16x et je me demande si elles seraient mieux exploités. Es-ce que le pcie 8x est réellement un goulot d'étranglement ?
Comme je n'ai que du pcie gen3 je soupçonne que le 8x est un goulot d'étranglement pour la 5060 qui est prevue pour du 8x en gen 5. Et peut être que je devrais donc plutôt choisir une carte sur un vrais pcie 16x et déplacer la 3060 sur le 8x. La meilleurs carte sera alors mieux exploitée.
Je ne sais pas comment mesurer le flux réel sur le pcie pour avoir une idée précise sur ce sujet.
J'ai testé la 5060 mais seule car à ce moment la je n'avais pas l'espace pour insérer les deux en même temps. Mettre la 5060 à côté de la 3060 serait-il vraiment mieux que la 5060 seule ?
D'un autre côté resté sur une nvidia c'est plus facile a gérer même si c'est un peu plus cher. Mais n'ayant pas testé d'autre marque, je n'ai pas d'expérience concrète la non plus.
Et peux être que booster le cpu permettra d’accélérer le traitement du kv cache, mais je n'ai aucune idée du gain que 8 core de plus pourrait apporter...
La configuration la plus optimal, et la moins cher pour moi, serait peut être aussi tout simplement trois 3060 sur les trois voies pcie d'un node cpu...
Tant de question !!!