Personal AI Supercomputer
NVIDIA DGX Spark
ซูเปอร์คอมพิวเตอร์ AI ระดับศูนย์ข้อมูล ย่อมาอยู่บนโต๊ะ — รันโมเดล AI ขนาดใหญ่ถึง ~200B และปรับโมเดลเองได้ในเครื่องเดียว ไม่ต้องพึ่ง cloud
ชิป GB10 Grace Blackwell — รวมทั้งเครื่องไว้ในแพ็กเกจเดียว
ชิปตัวเดียวที่รวม CPU + GPU + หน่วยความจำ ไว้ด้วยกัน เชื่อมกันด้วยสะพานความเร็วสูง NVLink-C2C — คลิกแต่ละบล็อกเพื่อดูรายละเอียด
Unified Memory
- 128GB LPDDR5x, 256-bit, 4266 MHz, 16 channels
- CPU + GPU แชร์ address เดียวกัน — ไม่ต้อง copy ข้าม PCIe
- bandwidth 273 GB/s (จุดที่ต้องเข้าใจ — ดูสไลด์ถัดไป)
128GB Unified Memory = ตัวปลดล็อกที่แท้จริง
โมเดลที่ GPU การ์ดจอทั่วไป (24GB) โหลดไม่ลง รันได้สบายบน Spark — เลือกโมเดลเพื่อดูว่าพอดี 128GB ไหม
GPU dedicated 24GB โหลดไม่ลง — ต้องหั่นหรือ offload
ใช้ ~48% ของ 128GB — เหลือ buffer
CPU กับ GPU ใช้หน่วยความจำเดียวกัน — ไม่ต้องคัดลอกข้อมูลไปมา จึงเร็วและประหยัดในงานปรับโมเดล
ใช้คนเดียวรู้สึกช้า แต่ตอบพร้อมกันหลายคนเร็วมาก
Spark ดึงข้อมูลจากหน่วยความจำได้ 273 GB/s — ถ้าถามทีละคนจะรู้สึกช้า แต่พอหลายคนถามพร้อมกัน มันรีดงานรวมได้สูงมาก นี่คือจุดแข็งจริงของมัน (ศัพท์เทคนิค: bandwidth-bound)
33 โทเคน/วิ — เพราะดึงข้อมูลได้จำกัด อย่าตัดสินจากตัวเลขนี้ตัวเดียว
ย่อยคำถามตอนแรกไวมาก (ขั้น prefill — ชิป Blackwell แรง)
33 → 863 โทเคน/วิ — Spark เหมาะเป็นเครื่องส่วนกลางของทีม มากกว่าเครื่องส่วนตัวคนเดียว
NVFP4 — บีบโมเดลให้เล็กลงและเร็วขึ้น (ของต้องทำ ไม่ใช่ทางเลือก)
บีบตัวเลขในโมเดลให้เหลือ 4-bit ทำให้โมเดลกินที่น้อยลงและทำงานเร็วขึ้น โดยคุณภาพแทบไม่ลด — ลากสไลเดอร์เพื่อดูผลต่อขนาดและความเร็ว
- • บีบจาก FP8 → NVFP4 เร็วขึ้นสูงสุด 2.6× (เคส Qwen-235B)
- • ลดการใช้หน่วยความจำ ~40% โดยคุณภาพแทบไม่ลด
- • โมเดล 120B รันได้บนเครื่องเดียวก็เพราะการบีบแบบนี้
- • งานสร้างภาพ/วิดีโอ → ใช้การบีบแบบ NVFP8
ต่อหลายเครื่องเข้าด้วยกัน = ซูเปอร์คอมพิวเตอร์ย่อมบนโต๊ะ
ต่อ Spark หลายเครื่องด้วยสายความเร็วสูง 200Gbps (ConnectX-7) → รวมหน่วยความจำเป็นก้อนเดียว รันโมเดลใหญ่ที่เครื่องเดียวไม่ไหวได้

200Gbps
เครื่องมือ SparkRun จัดการการเชื่อมต่อให้อัตโนมัติ — สั่ง --tp 2 ก็กระจายงานข้ามเครื่องได้เลย ไม่ต้องตั้งค่าเอง
128GB ไม่ใช่ไม่จำกัด — วางงบ memory ให้เป็น
ลองปรับโมเดลและเปิด video gen ดู — กฎเหล็ก: อย่าให้ LLM 120B เต็มสูบชนกับ video เต็มสูบ
ใช้ 96GB · เหลือ buffer 32GB — รัน OpenCode + Designer + Hermes พร้อมกันได้สบายบนสมองตัวเดียว
4 Agent Solutions
ทำอะไรได้บ้างบนเครื่องเดียว
DGX Spark เป็น backend กลางที่ 4 ระบบ agent แชร์ร่วมกัน — Graphic, Designer, OpenCode, Hermes
Graphic — สตูดิโอภาพ/วิดีโอ AI
เปลี่ยน Spark เป็นสตูดิโอสร้างภาพ/วิดีโอในเครื่องด้วย ComfyUI — ภาพคอนเซ็ปต์, สตอรีบอร์ด, โฆษณา, คอนเทนต์โซเชียล โดยภาพไม่ออกนอกเครื่อง
FLUX.2 Klein, Qwen-Image, Z-Image — คุณภาพสูง prompt ไทย/อังกฤษ
LTX-2 (สูงสุด 4K), Wan 2.1 — ทำภาพนิ่งให้เคลื่อนไหว
FLUX.2, SDXL + LoRA รีทัช เปลี่ยนสไตล์
FLUX.1 DreamBooth fine-tune ให้ได้สไตล์/สินค้าแบรนด์
- • checkpoint NVFP4/FP8 → เร็วขึ้น ~2.5×, ลด memory ~60%
- • video กิน ~30–50GB → unload หลัง gen, อย่าชน LLM 120B
- • batch กลางคืน = จุดแข็ง (queue งานทีม)
Designer — ผู้ช่วยออกแบบเว็บ/UI
Open Design เปลี่ยนโจทย์สั้น ๆ → ตัวอย่างหน้าเว็บ, หน้าจอแอป, สไลด์ ได้ในเครื่อง โดยใช้ชุดดีไซน์มาตรฐานคุมคุณภาพงาน
library ระดับ brand-grade + skill-based → output เสถียร
ใช้ OpenCode + LLM ในเครื่องได้เลย (Claude Code/Codex/Gemini ก็ได้)
ไม่ส่ง project ขึ้น cloud — ตรงจุดขาย privacy ของ Spark
design tool open-source มี MCP ให้ agent อ่าน-เขียน design
- • ย้ายความซับซ้อนจากโมเดล → ไป template/skill (ใช้โมเดลเล็กลงได้)
- • streaming → เห็น prototype ค่อย ๆ โผล่, TTFT ต่ำ
- • แชร์ backend เดียวกับ OpenCode/Hermes
OpenCode — ผู้ช่วยโปรแกรมเมอร์ + QA Tester
ผู้ช่วยเขียนโค้ด (open-source) ที่ช่วยทีม dev เขียน/รีวิว/เทสต์โค้ด โดยโมเดลรันบน Spark — โค้ดบริษัทไม่ออกนอกเครื่อง
เขียน+รัน unit/integration/e2e จริงในเครื่อง → แก้จน pass
รีวิว diff/PR, หา edge case, เพิ่ม coverage
จาก ticket → เขียน failing test → propose fix (diff)
รัน batch กับ repo ทั้งทีม (Spark = server กลาง)
- • Tester = หลาย request ขนาน + batch กลางคืน → ตรง concurrency
- • repo indexing แทนยัดทั้ง repo เข้า context (ประหยัด KV)
- • context 32k–64k พอเหมาะ
Hermes — เลขาส่วนตัวผ่านแชต
ผู้ช่วยที่เปิดตลอดเวลา คุยผ่าน Line/Telegram/Discord — สรุปบทความ หาข้อมูล จัดรูปแบบ ตั้งงานอัตโนมัติ ทำงานด้วยโมเดลในเครื่อง
รับ URL → fetch → สรุป; web search + สังเคราะห์พร้อมอ้างอิง
ตั้งงานตามเวลา (สรุปข่าวเช้า) + จำข้ามเซสชัน
สร้าง/ปรับ skill จากประสบการณ์ระหว่างใช้งาน
สั่ง ComfyUI ทำภาพ, ดึงผล test จาก OpenCode
- • always-on + multi-user → continuous batching รีด throughput
- • งานเลขาทนต่อ latency วินาที → bandwidth-bound ไม่เป็นปัญหา
- • แชร์ backend เดียว ไม่โหลดโมเดลแยก
ทั้ง 4 โซลูชันบนเครื่องเดียว — ภาพรวมการเชื่อมต่อ
ทุก agent คุยกับสมองกลางก้อนเดียวกัน ส่วนงานสร้างภาพ/วิดีโอ (ComfyUI) แยกออกมาเพราะใช้หน่วยความจำคนละแบบ
สรุป · หลักการรันอย่างมีประสิทธิภาพ
งาน AI ครบวงจร จบในเครื่องเดียว — ส่วนตัว ออฟไลน์ ของคุณ
DGX Spark = เครื่องส่วนกลางของทีม สำหรับ ลองสร้าง → ปรับโมเดล → เปิดให้ใช้ ก่อนขยายขึ้น cloud (ใช้โค้ดชุดเดิมได้เลย)