KM

Personal AI Supercomputer

NVIDIA DGX Spark

ซูเปอร์คอมพิวเตอร์ AI ระดับศูนย์ข้อมูล ย่อมาอยู่บนโต๊ะ — รันโมเดล AI ขนาดใหญ่ถึง ~200B และปรับโมเดลเองได้ในเครื่องเดียว ไม่ต้องพึ่ง cloud

0 PFLOP
AI @ FP4
0GB
Unified Memory
0.0 kg
น้ำหนัก
0W
Power
01 · ฮาร์ดแวร์

ชิป GB10 Grace Blackwell — รวมทั้งเครื่องไว้ในแพ็กเกจเดียว

ชิปตัวเดียวที่รวม CPU + GPU + หน่วยความจำ ไว้ด้วยกัน เชื่อมกันด้วยสะพานความเร็วสูง NVLink-C2C — คลิกแต่ละบล็อกเพื่อดูรายละเอียด

GB10 Superchip
128GB · 273 GB/s

Unified Memory

  • 128GB LPDDR5x, 256-bit, 4266 MHz, 16 channels
  • CPU + GPU แชร์ address เดียวกัน — ไม่ต้อง copy ข้าม PCIe
  • bandwidth 273 GB/s (จุดที่ต้องเข้าใจ — ดูสไลด์ถัดไป)
01 · ฮาร์ดแวร์

128GB Unified Memory = ตัวปลดล็อกที่แท้จริง

โมเดลที่ GPU การ์ดจอทั่วไป (24GB) โหลดไม่ลง รันได้สบายบน Spark — เลือกโมเดลเพื่อดูว่าพอดี 128GB ไหม

62 GB
GPU 24GB1 Spark · 128GB2 Sparks · 256GB
เกินการ์ดจอ 24GB

GPU dedicated 24GB โหลดไม่ลง — ต้องหั่นหรือ offload

พอดี 1 Spark

ใช้ ~48% ของ 128GB — เหลือ buffer

กุญแจสำคัญ

CPU กับ GPU ใช้หน่วยความจำเดียวกัน — ไม่ต้องคัดลอกข้อมูลไปมา จึงเร็วและประหยัดในงานปรับโมเดล

01 · ทดสอบความเร็ว

ใช้คนเดียวรู้สึกช้า แต่ตอบพร้อมกันหลายคนเร็วมาก

Spark ดึงข้อมูลจากหน่วยความจำได้ 273 GB/s — ถ้าถามทีละคนจะรู้สึกช้า แต่พอหลายคนถามพร้อมกัน มันรีดงานรวมได้สูงมาก นี่คือจุดแข็งจริงของมัน (ศัพท์เทคนิค: bandwidth-bound)

ถามทีละ 1 คำถาม (ใช้คนเดียว)0 โทเคน(33.53 โทเคน/วิ)
ถามพร้อมกันหลายคน (นับงานรวมทุกคน)0 โทเคน(863 โทเคน/วิ)
ถามทีละคน = ช้า

33 โทเคน/วิ — เพราะดึงข้อมูลได้จำกัด อย่าตัดสินจากตัวเลขนี้ตัวเดียว

อ่านโจทย์ยาว ๆ = เร็ว

ย่อยคำถามตอนแรกไวมาก (ขั้น prefill — ชิป Blackwell แรง)

ยิ่งหลายคน ยิ่งคุ้ม

33 → 863 โทเคน/วิ — Spark เหมาะเป็นเครื่องส่วนกลางของทีม มากกว่าเครื่องส่วนตัวคนเดียว

01 · ซอฟต์แวร์

NVFP4 — บีบโมเดลให้เล็กลงและเร็วขึ้น (ของต้องทำ ไม่ใช่ทางเลือก)

บีบตัวเลขในโมเดลให้เหลือ 4-bit ทำให้โมเดลกินที่น้อยลงและทำงานเร็วขึ้น โดยคุณภาพแทบไม่ลด — ลากสไลเดอร์เพื่อดูผลต่อขนาดและความเร็ว

หน่วยความจำที่ใช้ (โมเดล 120B)60 GB
พอดี 128GB ✓
128GB256GB
ความเร็วเทียบ FP16
2.6×
  • • บีบจาก FP8 → NVFP4 เร็วขึ้นสูงสุด 2.6× (เคส Qwen-235B)
  • • ลดการใช้หน่วยความจำ ~40% โดยคุณภาพแทบไม่ลด
  • • โมเดล 120B รันได้บนเครื่องเดียวก็เพราะการบีบแบบนี้
  • • งานสร้างภาพ/วิดีโอ → ใช้การบีบแบบ NVFP8
01 · เครือข่าย

ต่อหลายเครื่องเข้าด้วยกัน = ซูเปอร์คอมพิวเตอร์ย่อมบนโต๊ะ

ต่อ Spark หลายเครื่องด้วยสายความเร็วสูง 200Gbps (ConnectX-7) → รวมหน่วยความจำเป็นก้อนเดียว รันโมเดลใหญ่ที่เครื่องเดียวไม่ไหวได้

DGX Spark
ConnectX-7 DGX Spark cable200Gbps
DGX Spark
Memory pool รวม
0GB
รันโมเดลได้ถึง
~405B
ปรับโมเดล (fine-tune)
70B+ FSDP

เครื่องมือ SparkRun จัดการการเชื่อมต่อให้อัตโนมัติ — สั่ง --tp 2 ก็กระจายงานข้ามเครื่องได้เลย ไม่ต้องตั้งค่าเอง

NCCLTailscale VPNBrevSwitch cluster
02 · สถาปัตยกรรม

ไอเดียหลัก: สมองกลางตัวเดียวที่ทุก agent แชร์กัน

Solution 2–4 ล้วนต้องการ 'สมอง' (โมเดล LLM) เหมือนกัน — ให้ทุกตัวมาใช้สมองก้อนเดียวร่วมกัน (โหลดโมเดลรอบเดียว) แทนที่จะต่างคนต่างโหลด

ลากโหนดได้
Memory ที่ใช้กับโมเดล62GB
พอดี เหลือ buffer สำหรับ KV cache + agents ✓
  • • โหลดโมเดลแค่รอบเดียว → ประหยัดหน่วยความจำมหาศาล
  • • หลาย agent ถามพร้อมกัน → เครื่องรวบงานตอบทีเดียว เร็วขึ้นฟรี
  • • ตรงจุดแข็ง 'ยิ่งหลายคน ยิ่งคุ้ม' ของ Spark พอดี
02 · งบประมาณหน่วยความจำ

128GB ไม่ใช่ไม่จำกัด — วางงบ memory ให้เป็น

ลองปรับโมเดลและเปิด video gen ดู — กฎเหล็ก: อย่าให้ LLM 120B เต็มสูบชนกับ video เต็มสูบ

โมเดล LLM:
62
22
12
buffer 32
LLM · gpt-oss-120B · 62GBหน่วยความจำพักงาน (KV cache) · 22GBระบบ + agents + ค้นข้อมูล · 12GB

ใช้ 96GB · เหลือ buffer 32GB — รัน OpenCode + Designer + Hermes พร้อมกันได้สบายบนสมองตัวเดียว

4 Agent Solutions

ทำอะไรได้บ้างบนเครื่องเดียว

DGX Spark เป็น backend กลางที่ 4 ระบบ agent แชร์ร่วมกัน — Graphic, Designer, OpenCode, Hermes

02 · Solution 1 / 4

Graphic สตูดิโอภาพ/วิดีโอ AI

เปลี่ยน Spark เป็นสตูดิโอสร้างภาพ/วิดีโอในเครื่องด้วย ComfyUI — ภาพคอนเซ็ปต์, สตอรีบอร์ด, โฆษณา, คอนเทนต์โซเชียล โดยภาพไม่ออกนอกเครื่อง

Browser/ทีมComfyUI :8188checkpoint NVFP4/FP8
Graphic · Text → Imageใส่สกรีนช็อตจริง · comfy.org
Text → Image

FLUX.2 Klein, Qwen-Image, Z-Image — คุณภาพสูง prompt ไทย/อังกฤษ

Graphic · Text/Image → Videoใส่สกรีนช็อตจริง · comfy.org
Text/Image → Video

LTX-2 (สูงสุด 4K), Wan 2.1 — ทำภาพนิ่งให้เคลื่อนไหว

Graphic · Image edit / in-paintใส่สกรีนช็อตจริง · comfy.org
Image edit / in-paint

FLUX.2, SDXL + LoRA รีทัช เปลี่ยนสไตล์

Graphic · Brand LoRAใส่สกรีนช็อตจริง · comfy.org
Brand LoRA

FLUX.1 DreamBooth fine-tune ให้ได้สไตล์/สินค้าแบรนด์

โมเดลแนะนำ
LTX-2 (video)NVFP8
FLUX.2 Klein (image)NVFP4
Qwen-Image / Z-ImageNVFP4
ประสิทธิภาพบน Spark
  • checkpoint NVFP4/FP8 → เร็วขึ้น ~2.5×, ลด memory ~60%
  • video กิน ~30–50GB → unload หลัง gen, อย่าชน LLM 120B
  • batch กลางคืน = จุดแข็ง (queue งานทีม)
ต่อยอด:+Hermes (สั่งผ่านแชต)+Open Design (asset)
คลิป 4K เรียลไทม์ช้า/กิน memory สูง
02 · Solution 2 / 4

Designer ผู้ช่วยออกแบบเว็บ/UI

Open Design เปลี่ยนโจทย์สั้น ๆ → ตัวอย่างหน้าเว็บ, หน้าจอแอป, สไลด์ ได้ในเครื่อง โดยใช้ชุดดีไซน์มาตรฐานคุมคุณภาพงาน

Designer/PMOpen DesignOpenCode harnessLLM :8000
Designer · 72 design systemsใส่สกรีนช็อตจริง · penpot.app
72 design systems

library ระดับ brand-grade + skill-based → output เสถียร

Designer · สแกน PATH หา harnessใส่สกรีนช็อตจริง · penpot.app
สแกน PATH หา harness

ใช้ OpenCode + LLM ในเครื่องได้เลย (Claude Code/Codex/Gemini ก็ได้)

Designer · Local-firstใส่สกรีนช็อตจริง · penpot.app
Local-first

ไม่ส่ง project ขึ้น cloud — ตรงจุดขาย privacy ของ Spark

Designer · + Penpot (option)ใส่สกรีนช็อตจริง · penpot.app
+ Penpot (option)

design tool open-source มี MCP ให้ agent อ่าน-เขียน design

โมเดลแนะนำ
Qwen3-30B-A3B (default)~18GB
gpt-oss-120B (งานยาก)~62GB
ประสิทธิภาพบน Spark
  • ย้ายความซับซ้อนจากโมเดล → ไป template/skill (ใช้โมเดลเล็กลงได้)
  • streaming → เห็น prototype ค่อย ๆ โผล่, TTFT ต่ำ
  • แชร์ backend เดียวกับ OpenCode/Hermes
ต่อยอด:+ComfyUI (hero image)+Penpot (visual)
ยังต้องมีดีไซเนอร์ตรวจ/ขัดเกลา
02 · Solution 3 / 4

OpenCode ผู้ช่วยโปรแกรมเมอร์ + QA Tester

ผู้ช่วยเขียนโค้ด (open-source) ที่ช่วยทีม dev เขียน/รีวิว/เทสต์โค้ด โดยโมเดลรันบน Spark — โค้ดบริษัทไม่ออกนอกเครื่อง

ทีม devOpenCode (TUI/IDE)LLM :8000
OpenCode · Tester ★ใส่สกรีนช็อตจริง · opencode.ai
Tester ★

เขียน+รัน unit/integration/e2e จริงในเครื่อง → แก้จน pass

OpenCode · Reviewerใส่สกรีนช็อตจริง · opencode.ai
Reviewer

รีวิว diff/PR, หา edge case, เพิ่ม coverage

OpenCode · Bug reproใส่สกรีนช็อตจริง · opencode.ai
Bug repro

จาก ticket → เขียน failing test → propose fix (diff)

OpenCode · งานกลางคืนใส่สกรีนช็อตจริง · opencode.ai
งานกลางคืน

รัน batch กับ repo ทั้งทีม (Spark = server กลาง)

โมเดลแนะนำ
Qwen2.5-Coder 32B~20GB
Qwen3-30B-A3B (ทีม)~18GB
gpt-oss-120B (รีวิว)~62GB
ประสิทธิภาพบน Spark
  • Tester = หลาย request ขนาน + batch กลางคืน → ตรง concurrency
  • repo indexing แทนยัดทั้ง repo เข้า context (ประหยัด KV)
  • context 32k–64k พอเหมาะ
ต่อยอด:+Hermes (แจ้งผล)OpenShell sandbox
ขอ approve ก่อน apply / rm / force push เสมอ
02 · Solution 4 / 4

Hermes เลขาส่วนตัวผ่านแชต

ผู้ช่วยที่เปิดตลอดเวลา คุยผ่าน Line/Telegram/Discord — สรุปบทความ หาข้อมูล จัดรูปแบบ ตั้งงานอัตโนมัติ ทำงานด้วยโมเดลในเครื่อง

LINE/TG/DiscordHermes (always-on)LLM :8000
Hermes · สรุป + หาข้อมูลใส่สกรีนช็อตจริง · build.nvidia.com
สรุป + หาข้อมูล

รับ URL → fetch → สรุป; web search + สังเคราะห์พร้อมอ้างอิง

Hermes · Cron + Memoryใส่สกรีนช็อตจริง · build.nvidia.com
Cron + Memory

ตั้งงานตามเวลา (สรุปข่าวเช้า) + จำข้ามเซสชัน

Hermes · Self-improving skillsใส่สกรีนช็อตจริง · build.nvidia.com
Self-improving skills

สร้าง/ปรับ skill จากประสบการณ์ระหว่างใช้งาน

Hermes · เรียก agent อื่นใส่สกรีนช็อตจริง · build.nvidia.com
เรียก agent อื่น

สั่ง ComfyUI ทำภาพ, ดึงผล test จาก OpenCode

โมเดลแนะนำ
Qwen3-30B / Qwen 3.6~18–20GB
gpt-oss-120B (เฉพาะงานลึก)~62GB
ประสิทธิภาพบน Spark
  • always-on + multi-user → continuous batching รีด throughput
  • งานเลขาทนต่อ latency วินาที → bandwidth-bound ไม่เป็นปัญหา
  • แชร์ backend เดียว ไม่โหลดโมเดลแยก
ต่อยอด:+ComfyUI+OpenCodeOpenShell
Line ต้องทำ webhook adapter (ไม่ native)
02 · ภาพรวมระบบ

ทั้ง 4 โซลูชันบนเครื่องเดียว — ภาพรวมการเชื่อมต่อ

ทุก agent คุยกับสมองกลางก้อนเดียวกัน ส่วนงานสร้างภาพ/วิดีโอ (ComfyUI) แยกออกมาเพราะใช้หน่วยความจำคนละแบบ

LINETelegramDiscordBrowserIDE / Terminal
Graphic
ComfyUI
Open Design
UI/prototype
OpenCode
Tester
Hermes
เลขา
DGX Spark · 128GB unified
LLM Backend (แชร์)
vLLM / Ollama · OpenAI-compatible :8000 · gpt-oss-120B (MXFP4)
โหลดรอบเดียว · ใช้หน่วยความจำร่วม · รวบงานตอบทีเดียว
Diffusion
ComfyUI :8188
ใช้หน่วยความจำเป็นช่วง ๆ (เฉพาะตอนสร้างภาพ)

สรุป · หลักการรันอย่างมีประสิทธิภาพ

งาน AI ครบวงจร จบในเครื่องเดียว — ส่วนตัว ออฟไลน์ ของคุณ

แชร์สมองก้อนเดียว
อย่าให้แต่ละ agent โหลดโมเดลเอง
บีบโมเดลเสมอ
NVFP4 — เร็วขึ้น ~2.5× กินที่น้อยลง 40–60%
ให้หลายคนใช้พร้อมกัน
ยิ่งหลายงานพร้อมกัน Spark ยิ่งรีดความเร็วรวมได้ดี
เลือกโมเดลแบบ MoE
ขนาดเท่ากันแต่เร็วกว่า (ใช้สมองแค่บางส่วนต่อครั้ง)
แยกงานภาพกับงานโมเดล
ใช้หน่วยความจำคนละแบบ อย่ารันชนกัน
เปิด streaming
ทยอยส่งคำตอบ ผู้ใช้รู้สึกเร็วขึ้น
ทำงานในเครื่อง = ไม่รั่ว
จุดขายหลักของทั้ง 4 โซลูชัน

DGX Spark = เครื่องส่วนกลางของทีม สำหรับ ลองสร้าง → ปรับโมเดล → เปิดให้ใช้ ก่อนขยายขึ้น cloud (ใช้โค้ดชุดเดิมได้เลย)

แหล่งอ้างอิงbuild.nvidia.com/sparkNVIDIA/dgx-spark-playbooksdocs.nvidia.com/dgxsparkrun.dev