Technology

รู้จักกับ NVFP4 มาตรฐานการ Quantised จาก Nvidia

By Arnon Puitrakul - 17 มิถุนายน 2026

รู้จักกับ NVFP4 มาตรฐานการ Quantised จาก Nvidia

ก่อนหน้านี้ เรารีวิว DGX Spark สำหรับใช้งานในบ้านเราไป เลยทำให้เราได้ไปนั่งหา Model เพื่อมารัน จนอ่านไปเจอกับ NVFP4 ที่เป็น Quantisation ของ Nvidia เอง แล้วมันเป็นอะไรที่เจ๋งมาก ๆ วันนี้เราจะมาเล่าให้อ่านกันว่า ทำไมมันเจ๋ง และ ใครควรจะใช้

เมื่อการทำ Quantisation ไม่ได้แค่ลดขนาด แต่มีผลกระทบอื่นด้วย

เวลาเราเปิดเข้าไปดูใน Huggingface เราจะเห็นว่า ใน Model เดียวกันมี Quantised Version หลายตัวมาก ๆ เช่น FP8, FP4, INT4 และอื่น ๆ อีกมากมาย หลายคนอาจจะคิดว่ามันแค่เป็นการย่อขนาดของ Model แล้วพอรันกลับมา มันก็จะได้ความแม่นยำที่เท่าเดิม เหมือนกับ Native Model

ยิ่งไปอ่านข้อดีของมัน ตั้งแต่ว่า พอเราลดขนาดของ Model ลงไปได้ 2 เท่า หรือมากกว่า มองกลับกันคือ ถ้าเรามี Memory เท่าเดิม เราสามารถยัด Model ขนาดใหญ่ขึ้น 2 เท่าหรือมากกว่าลงไปได้ และการย้ายข้อมูลไปมาระหว่าง Memory ก็จะน้อยลงด้วย การทำงานก็จะยิ่งเร็วขึ้น และประหยัดพลังงานในการทำงานมากขึ้น

แต่ความจริงแล้ว มันไม่ได้เป็นแบบนั้นเลย การ Quantise Model มันคือ การเปลี่ยน Data Type ของ Hyperparameter ภายในของ Model เช่น Native เราใช้ BF16 เท่ากับว่า ตัวนึงเราต้องใช้ Memory ขนาด 16-bit ในการจัดเก็บ แต่พอเรา Quantised ลงมา อาจจะเหลือ FP8 เท่ากับว่าใช้ 8-bits ในการจัดเก็บเท่านั้น ปัญหาคือ พอลดขนาดของข้อมูล ทำให้จำนวนขนาดและความละเอียดของตัวเลขมันหายลงไป เช่น BF16 ใช้ 7 Mantissa Bit แต่ FP8 กลับใช้ 2 หรือ 3 Mantissa Bit เท่านั้น ทำให้ความละเอียดหายไปเยอะ เช่น สมมุติว่า BF16 เลขที่ละเอียดที่สุดที่เก็บได้คือ 0.000000001 แต่พอโดนย่อลงมาเหลือ FP8 จะเหลือแค่ 0.000001 เท่านั้น

ปัญหามันอยู่ที่ว่า หาก Weight ใน Model ตัว Weight บางเส้น ที่มันบางมาก ๆ เช่น บน Native Precision มันเป็น 0.00000001 แต่พอโดน Quantised ลงมาเลขมันเก็บไม่ได้ละเอียดเท่าเดิม ทำให้จากที่มันมีค่า มันก็จะโดนปัดลงเป็น 0 กลายเป็นไม่มีน้ำหนักเฉยเลย ผลที่ตามมาคือบาง Model มักจะเสีย Accuracy หรือที่บ้าน ๆ เราเรียกว่า มันโง่ ลง หรือความฉลาดในการตอบคำถามลดลง ซึ่งจุดนี้เองที่ทำให้เราจะต้องชั่งน้ำหนักระหว่าง Quantisation Level และ Model Size ตอนที่เราเลือก Model มาใช้ทำงานในจุดที่มี Memory Budget จำกัด

Nvidia เสนอการแก้ปัญหาด้วย NVFP4

เพื่อเป็นการลดปัญหา Quantisation Error ที่ได้เล่าไป Nvidia เลยเสนอ Quantisation Level ใหม่ที่เรียกว่า NVFP4 หรือ FP4 ฉบับของ Nvidia โดยตามชื่อเลยว่า มันจะมีขนาดแค่ 4-bits เท่านั้น แต่ Nvidia ไปเลือกปรับที่โครงสร้างของมันที่เรียกว่า E2M1 แปลว่ามี 1-bit สำหรับเครื่องหมาย (บวก หรือ ลบ), 2-bit สำหรับเลขชี้กำลัง และ 1-bit สำหรับ Mantissa ถ้าดูเผิน ๆ เราจะเห็นว่า จำนวน Bit มันน้อยมาก ๆ ทำให้ช่วงของการเก็บข้อมูลนั้นมีจำกัด

สิ่งที่เราทำอยู่ทุกวันนี้ มันเหมือนเราพยายามเอาไม้บรรทัดละเอียดขนาดเดียว มาวัดตัวเลข ทั้งใหญ่ และจิ๋วปน ๆ กันไปหมด อารมณ์เหมือน เอาไม้บรรทัด มาวัดขนาดของเม็ดทราย กับขนาดตึกใบหยกแบบนั้นเลย แน่นอนว่า มันทำให้เกิดความคลาดเคลื่อนในการทำงานของ Model อันเกิดจาก Quantisation Level ได้แน่นอน

Nvidia เลยบอกว่า งั้น เราใช้กลไกที่เรียกว่า Two-Level Scaling Strategy หรือการใช้ไม้บรรทัด 2 อันมาวัดแทน โดยระดับแรก จะเข้าไปจัดการที่ตัวข้อมูลดิบกันก่อน NVFP4 ไม่ได้วัดเดียวเลขทีละตัวแบบสุ่ม แต่มีการแบ่งกลุ่มข้อมูลออกมาเป็น Micro-Block ในแต่ละ Block จะประกอบด้วย 16 ค่า กุญแจสำคัญมันอยู่ที่ว่า มันจะเอามาหา Scaling Factor ร่วมกัน เก็บเป็น FP8 เอาไว้

และเพื่อเป็นการแก้ไขเรื่องความแปรปรวนในแต่ละ Layer เขาจะมีไม้บรรทัดอีกตัวนึงที่เก็บด้วยขนาด FP32 เก็บไว้อีกขั้น นั่นแปลว่า หากเราต้องการเอาค่าเดิมกลับมา เราแค่เอา ค่าจากใน Tensor คูณด้วย Scaling Factor ระดับ Micro-Block และระดับ Tensor คูณเข้าไปด้วยกัน เราก็จะได้ค่าที่ "ใกล้เคียง" เดิมออกมา โดยที่ค่าส่วนใหญ่ที่เก็บจะยังคงขนาดที่ 4-bit ได้อยู่ ทำให้ขนาดของ Model เล็กลงเกือบเท่า 4-bit แต่ก็ยังได้ความแม่นยำแทบจะไม่ต่างจาก 8-bit เลย

ความฉลาดแทบไม่ลดลงเลย เมื่อเทียบกับ FP8

ใคร ๆ ก็คิดวิธีการย่อขนาดของ Model ได้ แต่วิธีของใครกันละที่จะคงความฉลาดได้ดีที่สุด Nvidia พิสูจน์เรื่องนี้ด้วยการทดลองเอา DeepSeek R1-0528 ที่ Quantised เป็น FP8 มาเทียบกับตัวโดน Quantised อีกทีให้กลายเป็น NVFP4 ผลปรากฏว่า ความแม่นยำของ Model ลดลงน้อยกว่า 1% ใน Testing Set ของ Nvidia เอง หรือแบบทดสอบทางคณิตศาสตร์อย่าง AIME 2024 ที่ผลลัพธ์ดีกว่าแบบเดิมซะอีก

ในแง่ของทรัพยากร การย่อลงไปที่ขนาด 4-bit ช่วยลดการใช้ Memory ลงไปเหลือเพียง 3.5 เท่าของ FP16 และ 1.8 เท่าเมื่อเทียบกับ FP8 ซึ่งช่วยลดการใช้ Memory Bandwidth ได้มหาศาล และ Nvidia ยังเคลมว่า ประสิทธิภาพด้านพลังงานที่วัดผลออกมาได้ ทำให้ได้ประสิทธิภาพต่อ Token ที่สูงกว่าเยอะมาก ประโยชน์เลยไม่ได้อยู่แค่เรื่องความเร็วเท่านั้น แต่ยังอยู่ที่เรื่องของการยั่งยืนในการขยายอีกด้วย

Ecosystem ที่เฮียเก็บไว้ใช้เองเถอะ

พอ Nvidia เป็นคนคิดมันขึ้นมาเอง เขาเลยทำ Hardware Accelerated ขึ้นมา สำหรับการทำงานกับ NVFP4 โดยเฉพาะ เริ่มต้นใส่มาใน GPU ของ Nvidia ตั้งแต่ Blackwell เป็นต้นไป

ปัจจุบันนี้พวก GPU ทั้งหลาย เขาจะมีหน่วยประมวลผลที่เกิดมาเพื่อ Data Type นั้น ๆ โดยเฉพาะ ไม่สามารถใช้งานข้ามกันได้ ทำให้หากเราเอา Data Type ที่ GPU เราไม่มีวงจรรองรับ เราอาจจะต้องทำ Dequantisation กลับขึ้นไปอีกทีนึง เพื่อให้วงจรภายใน GPU สามารถคำนวณได้ นั่นทำให้เราเสียเวลา และ Memory ในการทำงานประมาณนึงเลย แต่ Nvidia เลยบอกว่า ไหน ๆ เราคิดมันขึ้นมาแล้ว งั้นเราก็ต้องทำให้ Hardware ของเรารองรับด้วยเลยสิ เขาเลยใส่ชุดคำสั่งสำหรับทำงานกับ NVFP4 ขึ้นมาโดยเฉพาะ นั่นทำให้ GPU ไม่ต้อง Dequantisation กลับไปที่ BF16 แล้ว ลดเวลาและพลังงานในการทำงานไปได้เยอะมาก เรากำลังพูดถึงหลัก 2 เท่าเมื่อเทียบกับการใช้ FP4 เฉย ๆ เลย

ตอนนี้มี Software และ Model ต่าง ๆ เริ่มออกมารองรับมันเรื่อย ๆ เช่นฝั่งการทำงานผ่าน vLLM และ SGLang ก็รองรับการทำงานกับ NVFP4 เป็นที่เรียบร้อยแล้ว เราแค่ไปเอา Model ที่เป็น NVFP4 มาใช้งานเท่านั้น เช่น Laama 3, DeepSeek R1 และ FLUX ที่มีให้ดาวน์โหลดแบบ NVFP4 ที่ผ่านการ Quantised มาแล้วจาก Huggingface

ปัญหาคือ เราคิดว่า NVFP4 ยังไม่ Mature มากเพียงพอที่จะทำงานได้อย่างไม่มีปัญหา หลาย ๆ Software โดยเฉพาะ vLLM (รู้เพราะใช้ทุกวัน) การตั้งค่าให้ทำงานกับ NVFP4 เป็นเรื่องที่ยากมาก ๆ หาก Setup ไม่ถูก เบาสุดอาจจะแค่ไม่ได้เร็วมากทันใจแค่นั้น แต่ถ้ามันพลาดในระดับที่ทำให้การตัดสินใจพลาดเลย มันก็แอบไม่ไหวเหมือนกันนะ

ถามต่อว่า แล้วใครละที่ควรใช้ เราคิดว่า คือคนที่ถือ Blackwell GPU ที่รองรับ NVFP4 แบบ Native มันจะทำให้เราได้ความเร็วที่สูงกว่าเดิมเยอะมาก ๆ แต่ฉลาดพอ ๆ กับ FP8 ส่วนถ้าใครไม่ได้ใช้งาน Blackwell GPU เราคิดว่า ไม่ต้องหาทำลงมาก็ได้ ยัดใส่ FP8 เหมือนเดิมก็อาจจะดีกว่าเยอะเลย

สรุป

เราว่า NVFP4 มันเป็นการแสดงให้เห็นนะว่า การที่ Model จะฉลาดมันต้องอยู่ที่ขนาดอย่างเดียว เพราะเราว่าโลกเรามันมาถึงจุดที่ Model มันใหญ่มากขึ้นเรื่อย ๆ จน Memory มันตามไม่ทันแล้ว เลยเริ่มย้ายกลับไปสู่จุดเริ่มต้นว่า แล้วเราจะทำอย่างไรให้เราสามารถเอาความฉลาด Fit ลงไปใน Memory ให้ได้มากที่สุด ซึ่ง NVFP4 สามารถทำให้เราเห็นได้เป็นอย่างดี ผ่านการใช้ไม้บรรทัด 2 อันในการวัดค่า เป็นก้าวสำคัญที่ทำให้เราสามารถนำ AI ที่ทรงพลังไปกระจายใช้งานได้ในวงกว้างมากขึ้นโดยมีต้นทุนที่ยั่งยืน