富士通、「生成AI再構成技術」で同社LLM「Takane」を強化:エッジデバイス上でのAIエージェント実行も可能に
量子化前と比較して精度維持率は89%、量子化前の3倍高速化。
富士通は2025年9月8日、大規模言語モデル(以下、LLM)の軽量化・省電力を実現するAI軽量化技術、「生成AI再構成技術」を開発、同社のLLM「Takane」を強化することに成功したと発表した。AIサービス「Fujitsu Kozuchi」のコア技術として活用する。
生成AI再構成技術は、AIの思考の基となる、各ニューロン間の結合に割り当てられる重みを極限まで圧縮する「量子化技術」と、元のAIモデルを超える精度と軽量化を両立させる「特化型AI蒸留技術」の2つがコア技術となる。
このうち量子化技術をTakaneに適用。1ビット量子化(メモリ消費量最大94%削減)で、量子化前と比較して精度維持率は89%、量子化前の3倍の高速化を実現した。これにより、ハイエンドのGPU4枚を必要とする大型の生成AIモデルをローエンドのGPU1枚で高速に実行することが可能となった。
従来手法では、LLMのような層が多いニューラルネットワークでは量子化誤差が指数関数的に蓄積することが課題だったという。そこで、層をまたいで量子化誤差を広げることで増大を防ぐ量子化アルゴリズム「QEP(Quantization Error Propagation)」を開発。同じく同社が開発した大規模問題向け最適化アルゴリズム「QQA(Quasi-Quantum Annealing)」を活用することでLLMの1ビット量子化を実現した。
本技術による軽量化はスマートフォンや工場機械などエッジデバイス上でのAIエージェント実行を可能にし、リアルタイムでの応答性向上、データセキュリティ強化、AI運用における省電力化などが期待できるという。
量子化技術を適用したTakaneのトライアル環境は2025年度3月末までに順次提供開始予定。富士通がTakaneを共同開発したCohereの研究用オープンウェイト「Command A」を本技術で量子化したモデルは、「Hugging Face」を通じて2025年9月8日から順次公開する。富士通は、今回の成果を基に、「金融、製造、医療、小売など各専門業務向けに、Takaneを生かした軽量AIエージェント群を開発・提供していく」としている。
Copyright © ITmedia, Inc. All Rights Reserved.