GB10 Grace Blackwell

128GB Unified Memory

NVFP4 Quantization

200Gbps ConnectX-7

Personal AI Supercomputer

NVIDIA DGX Spark

ซูเปอร์คอมพิวเตอร์ AI ระดับศูนย์ข้อมูล ย่อมาอยู่บนโต๊ะ — รันโมเดล AI ขนาดใหญ่ถึง ~200B และปรับโมเดลเองได้ในเครื่องเดียว ไม่ต้องพึ่ง cloud

0 PFLOP

AI @ FP4

0GB

Unified Memory

0.0 kg

น้ำหนัก

Power

01 · ฮาร์ดแวร์

ชิป GB10 Grace Blackwell — รวมทั้งเครื่องไว้ในแพ็กเกจเดียว

ชิปตัวเดียวที่รวม CPU + GPU + หน่วยความจำ ไว้ด้วยกัน เชื่อมกันด้วยสะพานความเร็วสูง NVLink-C2C — คลิกแต่ละบล็อกเพื่อดูรายละเอียด

GB10 Superchip

128GB · 273 GB/s

Unified Memory

128GB LPDDR5x, 256-bit, 4266 MHz, 16 channels
CPU + GPU แชร์ address เดียวกัน — ไม่ต้อง copy ข้าม PCIe
bandwidth 273 GB/s (จุดที่ต้องเข้าใจ — ดูสไลด์ถัดไป)

01 · ฮาร์ดแวร์

128GB Unified Memory = ตัวปลดล็อกที่แท้จริง

โมเดลที่ GPU การ์ดจอทั่วไป (24GB) โหลดไม่ลง รันได้สบายบน Spark — เลือกโมเดลเพื่อดูว่าพอดี 128GB ไหม

62 GB

GPU 24GB1 Spark · 128GB2 Sparks · 256GB

เกินการ์ดจอ 24GB

GPU dedicated 24GB โหลดไม่ลง — ต้องหั่นหรือ offload

พอดี 1 Spark

ใช้ ~48% ของ 128GB — เหลือ buffer

กุญแจสำคัญ

CPU กับ GPU ใช้หน่วยความจำเดียวกัน — ไม่ต้องคัดลอกข้อมูลไปมา จึงเร็วและประหยัดในงานปรับโมเดล

01 · ทดสอบความเร็ว

ใช้คนเดียวรู้สึกช้า แต่ตอบพร้อมกันหลายคนเร็วมาก

Spark ดึงข้อมูลจากหน่วยความจำได้ 273 GB/s — ถ้าถามทีละคนจะรู้สึกช้า แต่พอหลายคนถามพร้อมกัน มันรีดงานรวมได้สูงมาก นี่คือจุดแข็งจริงของมัน (ศัพท์เทคนิค: bandwidth-bound)

ถามทีละ 1 คำถาม (ใช้คนเดียว)0 โทเคน(33.53 โทเคน/วิ)

ถามพร้อมกันหลายคน (นับงานรวมทุกคน)0 โทเคน(863 โทเคน/วิ)

ถามทีละคน = ช้า

33 โทเคน/วิ — เพราะดึงข้อมูลได้จำกัด อย่าตัดสินจากตัวเลขนี้ตัวเดียว

อ่านโจทย์ยาว ๆ = เร็ว

ย่อยคำถามตอนแรกไวมาก (ขั้น prefill — ชิป Blackwell แรง)

ยิ่งหลายคน ยิ่งคุ้ม

33 → 863 โทเคน/วิ — Spark เหมาะเป็นเครื่องส่วนกลางของทีม มากกว่าเครื่องส่วนตัวคนเดียว

01 · ซอฟต์แวร์

NVFP4 — บีบโมเดลให้เล็กลงและเร็วขึ้น (ของต้องทำ ไม่ใช่ทางเลือก)

บีบตัวเลขในโมเดลให้เหลือ 4-bit ทำให้โมเดลกินที่น้อยลงและทำงานเร็วขึ้น โดยคุณภาพแทบไม่ลด — ลากสไลเดอร์เพื่อดูผลต่อขนาดและความเร็ว

หน่วยความจำที่ใช้ (โมเดล 120B)60 GB

พอดี 128GB ✓

128GB256GB

ความเร็วเทียบ FP16

2.6×

• บีบจาก FP8 → NVFP4 เร็วขึ้นสูงสุด 2.6× (เคส Qwen-235B)
• ลดการใช้หน่วยความจำ ~40% โดยคุณภาพแทบไม่ลด
• โมเดล 120B รันได้บนเครื่องเดียวก็เพราะการบีบแบบนี้
• งานสร้างภาพ/วิดีโอ → ใช้การบีบแบบ NVFP8

01 · เครือข่าย

ต่อหลายเครื่องเข้าด้วยกัน = ซูเปอร์คอมพิวเตอร์ย่อมบนโต๊ะ

ต่อ Spark หลายเครื่องด้วยสายความเร็วสูง 200Gbps (ConnectX-7) → รวมหน่วยความจำเป็นก้อนเดียว รันโมเดลใหญ่ที่เครื่องเดียวไม่ไหวได้

200Gbps

Memory pool รวม

0GB

รันโมเดลได้ถึง

~405B

ปรับโมเดล (fine-tune)

70B+ FSDP

เครื่องมือ SparkRun จัดการการเชื่อมต่อให้อัตโนมัติ — สั่ง --tp 2 ก็กระจายงานข้ามเครื่องได้เลย ไม่ต้องตั้งค่าเอง

NCCLTailscale VPNBrevSwitch cluster

02 · สถาปัตยกรรม

ไอเดียหลัก: สมองกลางตัวเดียวที่ทุก agent แชร์กัน

Solution 2–4 ล้วนต้องการ 'สมอง' (โมเดล LLM) เหมือนกัน — ให้ทุกตัวมาใช้สมองก้อนเดียวร่วมกัน (โหลดโมเดลรอบเดียว) แทนที่จะต่างคนต่างโหลด

ผู้ใช้ / ทีม

OpenCode

Tester

Open Design

Hermes

เลขา

LLM Backend (แชร์ตัวเดียว)

gpt-oss-120B · :8000 · ~62GB

ComfyUI

:8188 · on-demand

ลากโหนดได้

Memory ที่ใช้กับโมเดล62GB

พอดี เหลือ buffer สำหรับ KV cache + agents ✓

• โหลดโมเดลแค่รอบเดียว → ประหยัดหน่วยความจำมหาศาล
• หลาย agent ถามพร้อมกัน → เครื่องรวบงานตอบทีเดียว เร็วขึ้นฟรี
• ตรงจุดแข็ง 'ยิ่งหลายคน ยิ่งคุ้ม' ของ Spark พอดี

02 · งบประมาณหน่วยความจำ

128GB ไม่ใช่ไม่จำกัด — วางงบ memory ให้เป็น

ลองปรับโมเดลและเปิด video gen ดู — กฎเหล็ก: อย่าให้ LLM 120B เต็มสูบชนกับ video เต็มสูบ

โมเดล LLM:

buffer 32

LLM · gpt-oss-120B · 62GBหน่วยความจำพักงาน (KV cache) · 22GBระบบ + agents + ค้นข้อมูล · 12GB

ใช้ 96GB · เหลือ buffer 32GB — รัน OpenCode + Designer + Hermes พร้อมกันได้สบายบนสมองตัวเดียว

4 Agent Solutions

ทำอะไรได้บ้างบนเครื่องเดียว

DGX Spark เป็น backend กลางที่ 4 ระบบ agent แชร์ร่วมกัน — Graphic, Designer, OpenCode, Hermes

02 · Solution 1 / 4

Graphic — สตูดิโอภาพ/วิดีโอ AI

เปลี่ยน Spark เป็นสตูดิโอสร้างภาพ/วิดีโอในเครื่องด้วย ComfyUI — ภาพคอนเซ็ปต์, สตอรีบอร์ด, โฆษณา, คอนเทนต์โซเชียล โดยภาพไม่ออกนอกเครื่อง

Browser/ทีม→ComfyUI :8188→checkpoint NVFP4/FP8

Graphic · Text → Imageใส่สกรีนช็อตจริง · comfy.org

Text → Image

FLUX.2 Klein, Qwen-Image, Z-Image — คุณภาพสูง prompt ไทย/อังกฤษ

Graphic · Text/Image → Videoใส่สกรีนช็อตจริง · comfy.org

Text/Image → Video

LTX-2 (สูงสุด 4K), Wan 2.1 — ทำภาพนิ่งให้เคลื่อนไหว

Graphic · Image edit / in-paintใส่สกรีนช็อตจริง · comfy.org

Image edit / in-paint

FLUX.2, SDXL + LoRA รีทัช เปลี่ยนสไตล์

Graphic · Brand LoRAใส่สกรีนช็อตจริง · comfy.org

Brand LoRA

FLUX.1 DreamBooth fine-tune ให้ได้สไตล์/สินค้าแบรนด์

โมเดลแนะนำ

LTX-2 (video)NVFP8

FLUX.2 Klein (image)NVFP4

Qwen-Image / Z-ImageNVFP4

ประสิทธิภาพบน Spark

• checkpoint NVFP4/FP8 → เร็วขึ้น ~2.5×, ลด memory ~60%
• video กิน ~30–50GB → unload หลัง gen, อย่าชน LLM 120B
• batch กลางคืน = จุดแข็ง (queue งานทีม)

ต่อยอด:+Hermes (สั่งผ่านแชต)+Open Design (asset)

⚠ คลิป 4K เรียลไทม์ช้า/กิน memory สูง

02 · Solution 2 / 4

Designer — ผู้ช่วยออกแบบเว็บ/UI

Open Design เปลี่ยนโจทย์สั้น ๆ → ตัวอย่างหน้าเว็บ, หน้าจอแอป, สไลด์ ได้ในเครื่อง โดยใช้ชุดดีไซน์มาตรฐานคุมคุณภาพงาน

Designer/PM→Open Design→OpenCode harness→LLM :8000

Designer · 72 design systemsใส่สกรีนช็อตจริง · penpot.app

72 design systems

library ระดับ brand-grade + skill-based → output เสถียร

Designer · สแกน PATH หา harnessใส่สกรีนช็อตจริง · penpot.app

สแกน PATH หา harness

ใช้ OpenCode + LLM ในเครื่องได้เลย (Claude Code/Codex/Gemini ก็ได้)

Designer · Local-firstใส่สกรีนช็อตจริง · penpot.app

Local-first

ไม่ส่ง project ขึ้น cloud — ตรงจุดขาย privacy ของ Spark

Designer · + Penpot (option)ใส่สกรีนช็อตจริง · penpot.app

+ Penpot (option)

design tool open-source มี MCP ให้ agent อ่าน-เขียน design

โมเดลแนะนำ

Qwen3-30B-A3B (default)~18GB

gpt-oss-120B (งานยาก)~62GB

ประสิทธิภาพบน Spark

• ย้ายความซับซ้อนจากโมเดล → ไป template/skill (ใช้โมเดลเล็กลงได้)
• streaming → เห็น prototype ค่อย ๆ โผล่, TTFT ต่ำ
• แชร์ backend เดียวกับ OpenCode/Hermes

ต่อยอด:+ComfyUI (hero image)+Penpot (visual)

⚠ ยังต้องมีดีไซเนอร์ตรวจ/ขัดเกลา

02 · Solution 3 / 4

OpenCode — ผู้ช่วยโปรแกรมเมอร์ + QA Tester

ผู้ช่วยเขียนโค้ด (open-source) ที่ช่วยทีม dev เขียน/รีวิว/เทสต์โค้ด โดยโมเดลรันบน Spark — โค้ดบริษัทไม่ออกนอกเครื่อง

ทีม dev→OpenCode (TUI/IDE)→LLM :8000

OpenCode · Tester ★ใส่สกรีนช็อตจริง · opencode.ai

Tester ★

เขียน+รัน unit/integration/e2e จริงในเครื่อง → แก้จน pass

OpenCode · Reviewerใส่สกรีนช็อตจริง · opencode.ai

Reviewer

รีวิว diff/PR, หา edge case, เพิ่ม coverage

OpenCode · Bug reproใส่สกรีนช็อตจริง · opencode.ai

Bug repro

จาก ticket → เขียน failing test → propose fix (diff)

OpenCode · งานกลางคืนใส่สกรีนช็อตจริง · opencode.ai

งานกลางคืน

รัน batch กับ repo ทั้งทีม (Spark = server กลาง)

โมเดลแนะนำ

Qwen2.5-Coder 32B~20GB

Qwen3-30B-A3B (ทีม)~18GB

gpt-oss-120B (รีวิว)~62GB

ประสิทธิภาพบน Spark

• Tester = หลาย request ขนาน + batch กลางคืน → ตรง concurrency
• repo indexing แทนยัดทั้ง repo เข้า context (ประหยัด KV)
• context 32k–64k พอเหมาะ

ต่อยอด:+Hermes (แจ้งผล)OpenShell sandbox

⚠ ขอ approve ก่อน apply / rm / force push เสมอ

02 · Solution 4 / 4

Hermes — เลขาส่วนตัวผ่านแชต

ผู้ช่วยที่เปิดตลอดเวลา คุยผ่าน Line/Telegram/Discord — สรุปบทความ หาข้อมูล จัดรูปแบบ ตั้งงานอัตโนมัติ ทำงานด้วยโมเดลในเครื่อง

LINE/TG/Discord→Hermes (always-on)→LLM :8000

Hermes · สรุป + หาข้อมูลใส่สกรีนช็อตจริง · build.nvidia.com

สรุป + หาข้อมูล

รับ URL → fetch → สรุป; web search + สังเคราะห์พร้อมอ้างอิง

Hermes · Cron + Memoryใส่สกรีนช็อตจริง · build.nvidia.com

Cron + Memory

ตั้งงานตามเวลา (สรุปข่าวเช้า) + จำข้ามเซสชัน

Hermes · Self-improving skillsใส่สกรีนช็อตจริง · build.nvidia.com

Self-improving skills

สร้าง/ปรับ skill จากประสบการณ์ระหว่างใช้งาน

Hermes · เรียก agent อื่นใส่สกรีนช็อตจริง · build.nvidia.com

เรียก agent อื่น

สั่ง ComfyUI ทำภาพ, ดึงผล test จาก OpenCode

โมเดลแนะนำ

Qwen3-30B / Qwen 3.6~18–20GB

gpt-oss-120B (เฉพาะงานลึก)~62GB

ประสิทธิภาพบน Spark

• always-on + multi-user → continuous batching รีด throughput
• งานเลขาทนต่อ latency วินาที → bandwidth-bound ไม่เป็นปัญหา
• แชร์ backend เดียว ไม่โหลดโมเดลแยก

ต่อยอด:+ComfyUI+OpenCodeOpenShell

⚠ Line ต้องทำ webhook adapter (ไม่ native)

02 · ภาพรวมระบบ

ทั้ง 4 โซลูชันบนเครื่องเดียว — ภาพรวมการเชื่อมต่อ

ทุก agent คุยกับสมองกลางก้อนเดียวกัน ส่วนงานสร้างภาพ/วิดีโอ (ComfyUI) แยกออกมาเพราะใช้หน่วยความจำคนละแบบ

LINETelegramDiscordBrowserIDE / Terminal

Graphic

ComfyUI

Open Design

UI/prototype

OpenCode

Tester

Hermes

เลขา

DGX Spark · 128GB unified

LLM Backend (แชร์)

vLLM / Ollama · OpenAI-compatible :8000 · gpt-oss-120B (MXFP4)

โหลดรอบเดียว · ใช้หน่วยความจำร่วม · รวบงานตอบทีเดียว

Diffusion

ComfyUI :8188

ใช้หน่วยความจำเป็นช่วง ๆ (เฉพาะตอนสร้างภาพ)

สรุป · หลักการรันอย่างมีประสิทธิภาพ

งาน AI ครบวงจร จบในเครื่องเดียว — ส่วนตัว ออฟไลน์ ของคุณ

แชร์สมองก้อนเดียว

อย่าให้แต่ละ agent โหลดโมเดลเอง

บีบโมเดลเสมอ

NVFP4 — เร็วขึ้น ~2.5× กินที่น้อยลง 40–60%

ให้หลายคนใช้พร้อมกัน

ยิ่งหลายงานพร้อมกัน Spark ยิ่งรีดความเร็วรวมได้ดี

เลือกโมเดลแบบ MoE

ขนาดเท่ากันแต่เร็วกว่า (ใช้สมองแค่บางส่วนต่อครั้ง)

แยกงานภาพกับงานโมเดล

ใช้หน่วยความจำคนละแบบ อย่ารันชนกัน

เปิด streaming

ทยอยส่งคำตอบ ผู้ใช้รู้สึกเร็วขึ้น

ทำงานในเครื่อง = ไม่รั่ว

จุดขายหลักของทั้ง 4 โซลูชัน

DGX Spark = เครื่องส่วนกลางของทีม สำหรับ ลองสร้าง → ปรับโมเดล → เปิดให้ใช้ ก่อนขยายขึ้น cloud (ใช้โค้ดชุดเดิมได้เลย)

แหล่งอ้างอิงbuild.nvidia.com/sparkNVIDIA/dgx-spark-playbooksdocs.nvidia.com/dgxsparkrun.dev