Grüße aus Shenzhen: Wir haben ein NAS-Gehäuse entwickelt, das DeepSeek R1 70B lokal packt (20 t/s mit interner 4090). Feedback erwünscht!
Posted by Maleficent_Cap9844@reddit | LocalLLaMA | View on Reddit | 23 comments
https://reddit.com/link/1p8aul3/video/qh2bk1u0pu3g1/player
Moin zusammen,
Ich arbeite aktuell hier in China (Shenzhen) bei einem kleinen Hardware-Team namens Harbor. Wir sitzen quasi direkt an der Quelle der Supply-Chain und haben das letzte Jahr damit verbracht, ein Problem zu lösen, das uns selbst genervt hat:
Wir wollten große LLMs (wie Llama 3 oder DeepSeek) lokal hosten, ohne unsere Daten in die Cloud zu blasen. Aber die Optionen waren Mist:
- Mac Studio: Super teuer und man ist im Apple-Ökosystem gefangen (kein CUDA).
- Server-Rack: Zu laut für das Home-Office.
- Standard-PC: Verbraucht zu viel Strom im Idle und ist kein echtes NAS.
Also haben wir hier vor Ort einen Prototypen entwickelt: Ein NAS-Chassis, das kompakt auf dem Schreibtisch steht, aber Platz für eine interne Full-Size GPU (bis zur RTX 4090) bietet.
Die Technik (Benchmarks): Wir haben das Ding die letzten Tage mit verschiedenen Modellen gestresst (Setup: Nexus Chassis + Ryzen 7 PRO 8845HS + interne RTX 4090):
- DeepSeek R1 70B (Deep Reasoning): Stabile \~20 Tokens/Sekunde. Das ist schnell genug für flüssigen Echtzeit-Chat mit GPT-4 Level Intelligenz. (Unten auch noch mal einen weiteren test mit AMD Radeon PRO W7900 mit 12 Tokens/Sekunde)
- 32B Modelle (High Speed): Hier kommen wir eig fast immer auf \~ 40 Tokens/Sekunde. Der Text fliegt förmlich über den Screen, schneller als man lesen kann.

Da der Ryzen 7 sehr effizient läuft, bleibt genug thermischer Spielraum, um die GPU in dem kompakten Gehäuse kühl zu halten (wir haben separate Luftkammern designt).
Jetzt zum eigentlichen Punkt (und warum ich hier poste): Wir sind vor einer Woche auf Kickstarter gestartet und – Hand aufs Herz – der Start war bisher eher schleppend (um nicht zu sagen: ziemlich zäh).
Wir sind halt eher Ingenieure und keine Marketing-Profis. Vielleicht haben wir das Problem falsch erklärt, oder der Preis für das Barebone-Kit ($799) schreckt ab, weil die Leute denken, da wäre keine CPU drin (ist sie aber, Ryzen 7 ist fest verlötet).
Mich würde eure ehrliche Meinung interessieren: Ist das Konzept "All-in-One" (NAS + AI Server) für euch interessant, oder baut ihr euch sowas lieber komplett selbst aus Einzelteilen zusammen? Übersehen wir hier irgendwas Offensichtliches, was euch vom Backen abhalten würde?
Link ist in den Kommentaren. Bin für jedes brutale Feedback dankbar, damit wir das Ruder noch rumreißen können.
Viele Grüße aus China
Evening_Ad6637@reddit
**English (German below)**
My honest opinion, and don't take this personally: Something is completely wrong with your description. You say Llama-3.3-70B, unquantized on an RTX 4090 -> That's not possible. Unquantized, this model is about 150 GB, and the RTX 4090 only has 24 GB.
However, your screenshots show that you're not using an RTX 4090 at all, but an AMD Radeon Pro 7900 with 48 GB.
Also, you're using ollama (which is a bad idea when it comes to performance, by the way), and the model specified there is provided by ollama as a Q4_K_M quant - another reason not to use ollama. Their model naming is intentionally misleading (https://ollama.com/library/deepseek-r1:70b).
Otherwise, regardless of the criticism above: Having a compact case that fits a 35 cm long and three-slot wide GPU is a nice idea, but honestly, that's about it. I would probably only be interested in the case and wouldn't spend more than 100 euros on it. As an average consumer, I don't need a huge amount of hard drive space - and I actually prefer to put together the motherboard, CPU, RAM, etc., myself. On Kickstarter, it says it comes with 2*16GB of RAM. That could be seen as a bad joke in this sub. A workstation should have at least 128 GB, with 64 GB being the absolute minimum.
From a business perspective, the whole thing would be too little and too small for me.
Personally, I feel like your idea is kind of 'neither here nor there'.
---
**German**
Meiner ehrliche, nicht persönlich gemeinte Meinung: Irgendwas stimmt mit deiner Beschreibung absolut gar nicht. Du sagst Llama-3.3-70B, nicht quantisiert auf RTX 4090 -> Das ist nicht möglich. Nicht quantisiert ist dieses Modell etwa 150 GB groß und die RTX 4090 hat nur 24 GB.
In deinen Screenshots sieht man aber, dass du gar nicht RTX 4090 verwendest, sondern AMD Radeon Pro 7900 mit 48 GB.
Außerdem verwendest du ollama (was übrigens eine schlechte Idee ist, wenn es um Performance geht), und das dort angegebene Modell wird wird von ollama als Q4_K_M Quant bereitgestellt - ein weiterer Punkt, weshalb man nicht ollama verwenden sollte. Deren Modell-Benennungen sind absichtlich irreführend.
Ansonsten, unabhängig von obiger Kritik: Ein kompaktes Gehäuse zu haben, in dem eine 35 cm lange und drei Slots breite GPU passt ist eine nette Idee, aber das war's ehrlich gesagt auch schon. Ich wäre vermutlich nur am Gehäuse interessiert und würde dafür nicht mehr als 100 Euro ausgeben. Als Otto-Normal-Verbrauch brauche ich keinen enorm großen Festplatten-Speicher - und Mainboard, CPU, RAM usw stelle ich persönlich tatsächlich lieber selber zusammen. Auf Kickstarter steht, dass 2*16GB RAM verbaut wären. Das kann in diesem Sub hier als schlechter Scherz empfunden werden. Eine Workstation sollte mindestens 128 GB haben, Schmerzgrenze 64 GB.
Aus Unternehmer-Sicht wäre mir das Ganze zu wenig und zu klein.
Ich persönlich empfinde eure Idee irgendwie als 'Nichts Ganzes, Nichts Halbes'.
Maleficent_Cap9844@reddit (OP)
I am also trying to figure out the comparison. e.g. the UGREEN NASync DXP4800 costs now during cyber monday 599 usd. however, from a specs perspective apart from the GPU, the nexus is better in almost any dimension, 8gb ecc vs up to 96gb, 1 10gbe + 1 2.5 gbe vs 2 , stronger CPU etc etc. so I am really trying to figure out how to really show the value. just to make sure I am not trying to defend myself here :D really just trying to figure out where the exact issue is
Evening_Ad6637@reddit
I understand what you mean. I think the problem is that it's difficult to position this product as an LLM powerhouse. It's a powerful, compact NAS server and looks really nice - there's no doubt about that.
But mentioning LLMs in this setting, especially a heavyweight (dense) beast like an unquantized 70B Llama, seems pretty misleading to me. I mean, it's basically impossible to run this model on top of this hardware-foundation since there's no PCIe card with that much capacity.
But even if you were to quantize it to q8.0, you'd still have to pay around $7,500 for an RTX Pro 6000 Blackwell to be able to run the model, and then only with low context.
I'm no marketing expert, but from the perspective of a consumer who is familiar with LLMs, I find that the current presentation creates quite high expectations, and I can well imagine how bad the disappointment might be afterwards.
Maleficent_Cap9844@reddit (OP)
hey thanks for the response. so I forgot to mention in the post, as you have mentioned we were using an AMD Radeon Pro 7900 for this particular test which reached around 12 tokens per sec. we also did another test with 4090 48g which reached 20 tokens per sec.
I get what you mean, so to sum it up the products positioning is a bit awkward right?
mobileJay77@reddit
Wie kriegst Du Deepseek mit 70B Parametern auf eine 4090? Quant oder nur teilweise GPU?
Maleficent_Cap9844@reddit (OP)
nicht quant. gpu auf 100%
HatEducational9965@reddit
you forgot to answer the how
Maleficent_Cap9844@reddit (OP)
so basically there are two 4090 models in china, one with 24g and one with 48g, this is why we were able to run it, since for a 70b model you need roughly 35g
HatEducational9965@reddit
35GB for a 70B model?
In bfloat16 you need 129.46 GB VRAM for
deepseek-ai/DeepSeek-R1-Distill-Llama-70B.https://huggingface.co/spaces/hf-accelerate/model-memory-usage
Evening_Ad6637@reddit
Without quantization, it is not possible to fit a 70B model into 24 GB.
HlddenDreck@reddit
Also 800$ ohne Grafikkarte? Ja, sehr abschreckend. Für Unternehmen uninteressant, da zu schwach. Für Privatpersonen zu teuer. Ich hab mir für 1000€ nen Tower mit 32 Kernen, 512GB RAM, 4TB SSD und 3x AMD MI50 (je 32GB) zusammengestellt. Das Ding liefert mit GPT-OSS-120B locker 65T/s. Und richtig große Sachen wie Kimi K2 Thinking laufen auch, wenn auch sehr langsam mit nur 3T/s.
pulse77@reddit
Sind diese 512GB RAM DDR4 oder DDR5? Bei welchem Quant läuft Kimi K2 Thinking mit 3T/s?
HlddenDreck@reddit
Die 1-bit Quant läuft mit 6t/s pp, 4t/s tg. Die 2-bit Quant läuft mit 4t/s pp, 3t/s tg. Ich nutze die Unsloth Quants.
HlddenDreck@reddit
DDR4, acht Kanäle da zwei CPUs mit je 4 Kanälen. Ich hab's mit 1-bit und ich meine auch mit 2-bit getestet. Müsste ich heute Abend nochmal schauen bei welcher Quantisierung das mit 3t/s lief.
Total_Laugh_1487@reddit
Good luck! But the price point might be a problem and you also need to add a GPU option; maybe with something like the 5060-Ti 16GB, it is a sub $400 card right now
Maleficent_Cap9844@reddit (OP)
Good point, we are trying to find a way to do that. but graphics cards are currently improssible to get just like RAM, we thought in the beginning to include 96g ram and ECC ram, but this is impossible to do since most suppliers only offer them to big tech now
Ok-Pipe-5151@reddit
I don't understand anything. Is this german or dutch?
ResidentPositive4122@reddit
Reddit is doing some weird stuff with translations landing in google. So if you search for something in your language, you'll get results auto-translated (like real threads originally in english, but everything is translated to that language). That seems to trip a lot of people up. I've seen it more and more recently where people post in french/spanish on other subs as well.
Maleficent_Cap9844@reddit (OP)
hahaha sorry forgot to write it in english. it is german
Background_Essay6429@reddit
RTX 4090 thermal specs at 20 t/s: what's peak GPU temp under sustained load?
Maleficent_Cap9844@reddit (OP)
Very good question, I actually have to ask the team, since they have ran the tests at emdoor labs
Maleficent_Cap9844@reddit (OP)
Hier auch nochmal der Link zu Kickstarter: https://www.kickstarter.com/projects/harbor/nexus-unleash-pro-grade-ai-with-full-size-gpu-acceleration
Maleficent_Cap9844@reddit (OP)
Hier auch nochmal der Link zu Kickstarter: https://www.kickstarter.com/projects/harbor/nexus-unleash-pro-grade-ai-with-full-size-gpu-acceleration