NVIDIA推出Mistral-NeMo-Minitron 8B語言模型,僅有80億參數規模但精度不遜120億版本

現在在邊際裝置執行大型語言模型的困難是參數規模,理論上相同技術但參數越大具備更優異的精確度與性能,不過考慮到邊際裝置的運算性能、記憶體等條件,又需要在規模與性能取捨;NVIDIA繼2024年7月攜手Mistral AI公布開源Mistral NeMo 12B模型後,再度推出以其為基礎精簡的Mistral-NeMo-Minitron 8B,雖然參數規模自120億縮減至80億,但精度與性能毫不遜色,足以於NVIDIA RTX技術驅動的工作站執行聊天機器人、虛擬助理、內容生成等應用。

此外,對於希冀在算力與記憶體更有限的設備執行特定功能的邊際運算生成式AI,如智慧手機、機器人、嵌入式平台執行更小規模語言模型的開發者,可以先下載Mistral-NeMo-Minitron 8B後,針對企業特定應用程式使用NVIDIA AI Foundry剪枝與蒸餾進一步縮減參數並保有接近的性能。

NVIDIA與Mistral AI的專家透過把兩種最佳化AI方式加總,透過剪枝方式把Mistral NeMo的120億個參數縮減至80億規模,並透過蒸餾方式提升精度,使Mistral-NeMo-Minitron 8B能夠以更少的運算資源實現相近的結果。剪枝的意義是去除參數中對精度影響最小的模型權重,藉此縮減神經網路規模,而在蒸餾模型時,會透過一個小資料集重新訓練修剪過的模型,大幅提升修剪過程降低的精度。

▲NVIDIA與Mistral AI透過剪枝與蒸餾將Mistral NeMo 12B化為Mistral-NeMo-Minitron 8B,僅需更小的神經網路規模即可實現相近的性能

經過精簡的Mistral-NeMo-Minitron 8B意味著更小又更有效率的模型,只需使用原始資料集的一小部分即可訓練一系列相關模型中的每個額外模型,相較重新訓練相同規模的模型,透過較大模型進行剪枝與蒸餾能省下40倍運算成本。

這也表示Mistral-NeMo-Minitron 8B得以在搭載NVIDIA RTX技術的工作站、筆記型電腦執行,使資源有限的組織更容易在基礎設施提供生成式AI功能,且僅需於邊際即可執行,不須將資料傳送至伺服器,進一步降低風險。

開發者能透過包裝成API的NVDIIA NIM微服務使用Mistral-NeMo-Minitron 8B,以及自Hugging Face下載模型,此外後續也將開放在Hugging Face取得NVIDIA NIM微服務,並可在數分鐘於任何具備NVIDIA RTX技術的加速系統部署。

雖然Mistral-NeMo-Minitron 8B語言模型的規模相當精簡,但在9項熱門的語言模型基準測試皆有著領先地位,包括語言理解、常識推論、數學推理、總結、編碼與產生真實答案的能力;由於Mistral-NeMo-Minitron 8B具備先進的精度,開發者只需透過AI Foundry瘦身及可透過極少的訓練資料與運算基礎設施實現高精度表現。

© 版权声明
THE END
喜歡就支持一下吧
点赞6 分享
評論 抢沙发
头像
歡迎您留下寶貴的見解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容