ComfyUI 101 · บทที่ 1

ComfyUI คืออะไร และทำไมต้องคิดแบบ “Node”

เข้าใจ “วิธีคิด” ของ ComfyUI ให้ได้ก่อน — เพราะถ้าเข้าใจตรงนี้ บทอื่นจะง่ายหมด

1.1

ComfyUI คืออะไร

โปรแกรม open-source (ฟรี) สำหรับสร้างภาพ/วิดีโอด้วย AI แบบ node-based — แทนที่จะมีฟอร์มเต็มไปด้วยปุ่ม เราจะ “ต่อกล่อง (node) เข้าด้วยกันด้วยเส้น” เพื่อประกอบเป็น workflow

นึกภาพง่าย ๆ ว่ามันคือ “โปรแกรมต่อท่อ” สำหรับ AI

แต่ละ node = อุปกรณ์ 1 ชิ้นทำงานอย่างเดียว · แต่ละเส้น = ท่อส่งข้อมูล · ทั้งหมดต่อกันเป็นกราฟ = workflow ของเรา · ComfyUI ไม่ “ซ่อน” ขั้นตอน แต่เปิดให้เห็นทุกขั้นของ diffusion จึงปรับแต่งได้ลึกกว่า

🔍 แล้วหน้าตาของ “1 node” เป็นแบบนี้:

1KSampler

model2

positive

latent

3LATENT

1
หัว Node
ชื่อ + สีบอกหมวดของ node (เช่น สีม่วง = กลุ่มโมเดล)
2
ช่องเสียบเข้า (input)
อยู่ทางซ้าย — รับข้อมูลเข้ามาประมวลผล
3
ช่องส่งออก (output)
อยู่ทางขวา — ส่งผลลัพธ์ออกไปให้ node อื่น
4
เส้น (wire)
ท่อส่งข้อมูล ลากจาก output → input · สีบอกชนิดข้อมูล

📊 ไม่ใช่ของเล่นเฉพาะกลุ่ม — ตัวเลขล่าสุด (มิ.ย. 2026):

116k+

GitHub stars

open-source อันดับต้นของวงการ

4M+

ผู้ใช้ทั่วโลก

ศิลปิน นักพัฒนา สตูดิโอ

$500M

มูลค่าบริษัท

Series B เม.ย. 2026 (TechCrunch)

800+

ผู้พัฒนา custom node

บน Comfy Registry ทางการ

แหล่งอ้างอิง: blog.comfy.org · comfy.org/about · GitHub · TechCrunch (เม.ย. 2026)

1.2

ประวัติความเป็นมา — 3 ปีครึ่ง จากงานอดิเรกสู่มาตรฐานวงการ

เริ่มจากโปรเจกต์ส่วนตัวของ comfyanonymous ปลายปี 2022 วันนี้ทีมผู้สร้างนิยามเป้าหมายว่า “the OS of creative AI” — ระบบปฏิบัติการของงานสร้างสรรค์ยุค AI

ต.ค. 2022

จุดเริ่มต้น

comfyanonymous (Yanick จาก Quebec) เจอ Stable Diffusion แล้วเริ่มเขียน ComfyUI เป็นโปรเจกต์ส่วนตัว

ม.ค. 2023

เปิดซอร์สบน GitHub

ปล่อยสู่สาธารณะ — เป้าหมาย: ต่อโมเดล AI เป็น workflow ที่ทำซ้ำได้ ซึ่งเครื่องมือค่ายอื่นทำไม่ได้

มิ.ย. 2024

ก่อตั้ง Comfy Org

รวมทีมผู้พัฒนาหลักของ ecosystem (ผู้สร้าง ComfyUI-Manager, SwarmUI ฯลฯ) มาทำเต็มเวลา

ส.ค. 2024

Day-0 ครั้งแรก: FLUX

รองรับ FLUX ตั้งแต่วันเปิดตัว — จุดเริ่มธรรมเนียม “โมเดล open ใหม่มา ใช้ใน ComfyUI ได้ทันที”

ต.ค. 2024

ComfyUI V1 + Desktop

แอป Desktop ติดตั้งคลิกเดียว Windows / macOS / Linux พร้อมอัปเดตอัตโนมัติ

พ.ค. 2025

API Nodes

เรียกโมเดลปิด (Veo, GPT-Image, Kling, Flux Pro…) จากในกราฟเดียวกับโมเดล open — จ่ายตามใช้จริง

พ.ย. 2025

Comfy Cloud

ใช้ ComfyUI ผ่านเบราว์เซอร์ ไม่ต้องติดตั้ง ไม่ต้องมี GPU

เม.ย. 2026

Series B $30M

มูลค่าบริษัทแตะ $500M — จากโปรเจกต์งานอดิเรก สู่มาตรฐานของอุตสาหกรรมใน 3 ปีครึ่ง

1.3

ใช้ทำงานอะไรได้บ้าง

กราฟเดียว ครอบทุก modality — และผสมข้ามกันได้ เช่น สร้างภาพนิ่งแล้วส่งต่อให้โมเดลวิดีโอทันที

🖼️

ภาพนิ่ง

FLUX.2 · Qwen-Image · Z-Image · Ideogram 4.0 · SDXL

✂️

แก้ไขภาพ

Qwen-Image-Edit · FLUX Kontext · Inpaint · ControlNet

🎬

วิดีโอ

Wan 2.2 · LTX-2 · Hunyuan Video · SVD

🎵

เสียง / ดนตรี

Stable Audio · ACE Step

🧊

Hunyuan3D · TripoSplat · TRELLIS

🔌

API สู่โมเดลปิด

Veo · GPT-Image · Kling · Flux Pro (จ่ายตามใช้)

1.4 · ของจริง

ตัวอย่างผลงานจากโมเดลยุคปัจจุบัน

รวมโพสต์ผลงานจริงจาก X.com ของแต่ละโมเดลที่รันใน ComfyUI ได้ — คลิกชิป 𝕏 เพื่อดูต้นทาง

🖼️

ภาพนิ่ง

4 โมเดลแถวหน้า — รันแบบ native ทั้งหมด

Native · Day-0

FLUX.2

Black Forest Labs

ภาพสมจริงระดับ 4MP — แสง ผิว ผ้า คมแบบช่างภาพมือโปร

·ใช้ภาพ reference ได้พร้อมกันถึง 10 ภาพ คุมคาแรกเตอร์คงที่
·เรนเดอร์ตัวหนังสือในภาพได้แม่น

𝕏 @ComfyUI · Day-0 𝕏 ตัวอย่าง i2i

Native

Qwen-Image / Edit

Alibaba Qwen

แชมป์ “ตัวหนังสือในภาพ” + แก้ภาพแบบเข้าใจความหมาย

·Edit-2511: สลับวัตถุ แก้ข้อความ เปลี่ยนฉาก คนหลายคนไม่เพี้ยน
·Qwen-Image-Layered แยกภาพเป็นเลเยอร์ RGBA ได้

𝕏 @ComfyUI · Qwen-Image 𝕏 @Alibaba_Qwen · Edit

Native · Day-0

Z-Image Turbo

Alibaba Tongyi

6B ตัวเล็ก เร็ว ~6 วินาที ได้ภาพสมจริงระดับ 2K

·เบาพอสำหรับ GPU บ้าน ๆ — โมเดลแรกที่เราจะโหลดในบทที่ 2 นั่นเอง
·เหมาะเป็น “โมเดลแรก” ของผู้เริ่มต้นที่สุดตอนนี้

𝕏 @ComfyUI · เปิดตัว 𝕏 ผลงาน community

Native · Day-0

Ideogram 4.0

Ideogram

ราชาตัวหนังสือในภาพ — จาก API-only สู่ open-weight 9.3B ที่รันเองได้

·สั่งวางตำแหน่งข้อความ/โลโก้ด้วย bounding box ได้ (เทรนด้วย caption แบบ JSON)
·โปสเตอร์ ป้าย ฉลาก — งานที่โมเดลอื่นสะกดผิด Ideogram ทำได้เป๊ะ

𝕏 @ComfyUI · native 4.0 𝕏 @ideogram_ai 𝕏 คุม layout

🎬

วิดีโอ

สาย open ที่แรงที่สุดสองตระกูล

Native

LTX-2

Lightricks

วิดีโอ + เสียงซิงก์ในตัว ระดับ 4K — open weights (ม.ค. 2026)

·ตระกูล LTXV คือโมเดลวิดีโอ open แบบ real-time ตัวแรกของโลก (5 วิ เรนเดอร์ ~4 วิ)
·มี custom node ทางการจาก Lightricks (keyframe, V2V)

𝕏 @ComfyUI · LTX-Video 𝕏 @LTXStudio

Native · Day-0

Wan 2.2 / 2.5

Alibaba

วิดีโอ open สายภาพยนตร์ — คุมแสง เลนส์ อารมณ์แบบผู้กำกับ

·2.2 (Apache 2.0) สถาปัตยกรรม MoE — Day-0 ใน ComfyUI, รัน local ได้
·2.5 เพิ่มเสียงซิงก์ + 1080p 10 วิ ผ่าน API Nodes · นิยมจับคู่ Z-Image → Wan

𝕏 @ComfyUI · Wan2.2 Day-0 𝕏 Z-Image × Wan 2.2

🧊

3D

ภาพเดียว → โมเดล 3D ใช้ต่อในเกม/แอนิเมชัน

API Node

Tripo 3D

VAST AI

ภาพ/ข้อความ → โมเดล 3D พร้อม texture และ rig ใช้งานต่อได้เลย

·API Nodes ทางการ: text-to-3D, image-to-3D, multi-image, auto-rig
·TripoSplat (open-source) ได้ Day-0 native — 3D Gaussian Splat จากภาพเดียว

𝕏 @tripoai × ComfyUI 𝕏 @ComfyUI · TripoSplat

Custom Node

TRELLIS 2

Microsoft Research

image-to-3D open-source ระดับ SOTA — mesh คุณภาพสูงจากภาพเดียว

·เทรนจากวัตถุ 3D กว่า 500K ชิ้น — ชุมชนยกให้เป็น “ก้าวกระโดดของ image-to-3D”
·ใช้ผ่าน custom node (IF-Trellis, ComfyUI-3D-Pack) — ติดตั้งผ่าน Manager

𝕏 ชุมชนรีวิว TRELLIS 𝕏 Trellis 2 wrapper

📝 ระวังเรียกชื่อผิด: Tripo (ไม่ใช่ “Trio3D”) และ TRELLIS (ไม่ใช่ “Trello” — อันนั้นแอปจัดการงาน)

1.5

สร้างภาพ AI = สายการผลิตในโรงงาน

การสร้างภาพ 1 ใบมีขั้นตอนเหมือนสายพาน — ในเครื่องมืออื่นขั้นตอนพวกนี้ “ซ่อน” หลังปุ่ม Generate ปุ่มเดียว แต่ใน ComfyUI แต่ละขั้น = 1 node ที่เราเห็นและแก้ได้

📦01

โหลดโมเดล

เปิดไฟล์โมเดล แตกออกเป็นสมอง + ล่าม + นักแปลภาพ

💬02

แปลง prompt

เปลี่ยนข้อความที่เราพิมพ์ ให้เป็นภาษาที่ AI เข้าใจ

🌫️03

สุ่ม noise

เตรียม 'ผ้าใบเปล่า' ที่เต็มไปด้วยจุดสัญญาณรบกวน

🪄04

ค่อย ๆ ลบ noise

Sampling — เคาะ noise ออกทีละนิดจนกลายเป็นภาพ ตาม prompt

🖼️05

แปลงเป็นภาพจริง

VAE Decode — เปลี่ยนภาพร่าง (latent) ให้เป็น pixel จริง

💾06

บันทึก

เซฟไฟล์ออกมา — พร้อม workflow ฝังอยู่ในภาพ

🪄 ขั้น “ค่อย ๆ ลบ noise” หน้าตาเป็นยังไง — ลากดูได้:

กำลังก่อตัวเป็นภาพ · 30%

🌫️ จุดสุ่มล้วน (noise)ลากดูการ “ก่อตัวเป็นภาพ”🖼️ ภาพถ่ายชัด

diffusion เริ่มจาก จุด noise สุ่มทั้งจอ (ขาว-ดำ-สี ที่ยังไม่เป็นภาพ) แล้ว KSampler ค่อย ๆ จัดระเบียบมันทีละรอบ (steps) ตาม prompt จนกลายเป็นภาพ · รายละเอียดอยู่ใน บทที่ 4

1.6

ทำไมต้องเป็น ComfyUI

ข้อดีที่ทำให้ power user ย้ายมาใช้ — และความท้าทายที่ต้องรับมือ

✅ ข้อดี

→ควบคุมได้ละเอียด — เห็นและแก้ได้ทุกขั้นตอน
→Workflow = ไฟล์ JSON เล็ก ๆ แชร์/เก็บเวอร์ชันง่าย
→ฝังใน metadata ของภาพ — ลากภาพกลับมาได้ workflow คืน
→Day-0 support — โมเดล open ใหม่ใช้ได้ตั้งแต่วันเปิดตัว (FLUX.2, Wan, Z-Image, Ideogram 4.0)
→Ecosystem ใหญ่ — custom node จากผู้พัฒนา 800+ ราย ติดตั้งผ่าน Manager
→เป็น API ในตัว — ทำ automation / batch ได้
→ฟรี + open source ตลอดไป (คำมั่นทางการ) รันในเครื่อง ข้อมูลไม่ออกนอกองค์กร
→มาตรฐานอุตสาหกรรม — VFX/โฆษณา/สตูดิโอใช้จริง ถึงขั้นมีตำแหน่งงาน “ComfyUI Artist”

⚠️ ความท้าทาย

→ชันกว่าตอนเริ่ม — หน้าจอ node ดูน่ากลัวตอนแรก
→ต้องมีเครื่องแรง (GPU / VRAM เยอะ ๆ)
→เจอ “missing node” บ่อย — แก้ด้วย ComfyUI Manager
→ต้องดูแลโมเดล/ไฟล์เอง — จัดระเบียบโฟลเดอร์ให้ดี

1.7

เทียบกับเครื่องมือที่ทีมอาจเคยใช้

Midjourney เหมาะกับหาไอเดียเร็ว ๆ — แต่พอต้องทำงานซ้ำ ๆ จำนวนมาก คุมผลให้คงที่ หรือเชื่อมเข้าระบบ ComfyUI คือคำตอบ (กดสลับแท็บเพื่อเทียบ)

ComfyUI

ต่อ node เป็นกราฟ

ความง่าย

2/5

ควบคุมรายละเอียด

5/5

รันในเครื่องตัวเอง

5/5

ทำ Automation / API

5/5

ทำซ้ำ / แชร์ pipeline

5/5

เหมาะกับงานโปร / production / automation

ลองเล่น

ต่อ Node ด้วยตัวเอง

นี่คือโครง text-to-image มาตรฐาน ลากเส้นจากช่องส่งออก (ขวา) ไปช่องเข้า (ซ้าย) ให้สีตรงกัน — ถ้าต่อครบจะได้ workflow ที่สร้างภาพได้จริง

LATENT

latent

✓ ต่อติด

IMAGE

latent

✕ ต่อไม่ได้ (สีไม่ตรง)

ช่องแต่ละช่องมี “ชนิดข้อมูล” (สี) — ต่อได้เฉพาะ สีเดียวกัน เหมือนปลั๊กที่เสียบได้เฉพาะรูที่ตรงกัน ถ้าชนิดไม่ตรง ComfyUI จะไม่ให้ต่อ · จำกฎนี้ได้ = เข้าใจ ComfyUI ไป 80%

ลากจากจุดสี ขวา ไป ซ้าย — ต่อได้เฉพาะ สีตรงกัน เท่านั้น

Load Checkpoint

MODEL

CLIP

VAE

CLIP Text Encode

clip

COND

Empty Latent

LATENT

KSampler

model

positive

latent

LATENT

VAE Decode

samples

vae

IMAGE

Save Image

images

หัวใจ

วิธีคิดแบบ Node — 3 แนวคิดที่ต้องจำ

ถ้าจำได้ว่า “ต่อสีให้ตรงกัน = ส่งข้อมูลถูกชนิด” คุณเข้าใจ 80% ของ ComfyUI แล้ว

Node (กล่อง)

ทำงานอย่างเดียว มีช่องเสียบเข้า (input) ทางซ้าย และช่องส่งออก (output) ทางขวา

Wire (เส้น)

ลากเชื่อม output ของ node หนึ่ง ไป input ของอีก node — คือการ “ส่งข้อมูล”

Type (สี/ชนิด)

แต่ละช่องมีชนิดข้อมูล ต่อได้เฉพาะชนิดเดียวกัน เหมือนปลั๊กที่เสียบได้เฉพาะรูที่ตรงกัน

สีของช่องเสียบ = ชนิดข้อมูล (ต่อได้เฉพาะสีเดียวกัน)

MODELสมองโมเดล (ตัวทำนาย noise)

CLIPล่ามแปลง prompt เป็นตัวเลข

VAEแปลงภาพจริง ↔ latent

CONDITIONINGเงื่อนไขที่ได้จาก prompt

LATENTภาพในพื้นที่บีบอัด

IMAGEภาพ pixel จริงที่เรามองเห็น

1.8

App Mode (ของใหม่ปี 2025–2026)

เปลี่ยน workflow ซับซ้อนให้กลายเป็นหน้าจอง่าย ๆ ที่มีเฉพาะช่องกรอกที่จำเป็น แล้วแชร์เป็นลิงก์ให้คนอื่นใช้

ทำไมสำคัญกับทีม

คนที่สร้าง workflow (เซียน) สร้างครั้งเดียว แล้วทำเป็น App ให้คนอื่น “แค่กรอกแล้วกด” — ได้ทั้งความยืดหยุ่นของ ComfyUI และความง่ายของ Midjourney ในเวลาเดียวกัน

✅ สรุปบทที่ 1

• ComfyUI = เครื่องมือสร้างภาพ/วิดีโอ AI แบบ ต่อ node เป็นกราฟ
• จุดเด่น: ควบคุมลึก · workflow เป็น JSON แชร์ง่าย · เป็น API ได้ · รองรับโมเดลใหม่เร็ว · ฟรี+รันในเครื่อง
• หัวใจคือ mental model: สร้างภาพ = สายการผลิต แต่ละขั้น = node, ต่อเส้นให้ชนิดข้อมูล (สี) ตรงกัน

📚 บทถัดไป: บทที่ 2 — การติดตั้ง + โหลดโมเดล แล้วต่อด้วย บทที่ 3 — Core Workflow (presentation 16:9) — เลือกบทได้จาก sidebar ซ้ายมือ