Red HatがRed Hat SummitでAI推論に焦点を当て、推論サーバとOSSプロジェクトを発表した。オープンソース技術vLLMを活用し、生成AI利用の本格化に対応するという。
この記事は会員限定です。会員登録(無料)すると全てご覧いただけます。
Red Hatは2025年5月20日(米国時間)、開幕した「Red Hat Summit 2025」でAI推論の高速化や効率化に焦点を当て、2つの発表を行った。vLLMを活用した推論サーバの提供開始と、vLLMをスケーリングするオープンソースプロジェクト「llm-d」の発足だ。llm-dにはNVIDIAやGoogle Cloud、CoreWeaveなどが参画している。
生成AI(人工知能)の活用が本格化すると、速度やレイテンシ、統合管理、ハードウェアコストなどの問題が表面化してくる。これに対応するのが2つの発表の目的だという。
2つの発表の中核となっているのは「vLLM」という技術。LLM(大規模言語処理)を使った推論の効率的な実行を助けるオープンソースライブラリだ。2023年にカリフォルニア大学バークレー校が開発し、急速に広まっている。
vLLMが解決するのは、GPUのメモリ管理の問題。多数のユーザーがクエリを同時に投げるようになると、計算量の増加にGPUのメモリが大量に消費される。メモリ管理が非効率だと、処理速度とレイテンシが悪化しやすく、これを防ぐためにはGPUを追加していかなければならない。
vLLMでは、コンピューターOSの仮想メモリ/ページングによるメモリ管理の考え方を適用し、GPUメモリ利用の効率化を図る。
事前に一定のメモリ量を割り当てるのではなく、必要に応じて小サイズのブロックを使うという手法を取る。また、バッチ処理をシーケンシャルではなく、動的にまとめて実行する。これによりスループットが向上するという。
vLLMは、NVIDIA、AMD、Google、Amazon Web Services、Intel、IBMなどによる、さまざまなアクセラレータに使うことができる。
Red Hatは今回、このvLLMを中核とした生成AIモデルサービング基盤として「Red Hat AI Inference Server」を発表した。vLLMに加え、AIモデルを圧縮してリソース要求を減らせるツールや、Hugging Face上のモデルカタログも用意しているという。
「Red Hat OpenShift」に追加できるため、クラウド、オンプレミス、エッジのどこでも使える。OpenShiftがどこでも動くという特徴をAI推論では特に生かせると、Red Hatはアピールしている。
さらにRed Hatは、vLLMを拡張する新OSSプロジェクトllm-dを発表した。推論の大規模化と効率化への対応を目的としている。
llm-dでは、1台のサーバだけでは対応しきれない推論を、複数のサーバや環境に分散し、効率的に処理できるという。
Red Hatは、llm-dで次のような機能を実現するとしている。
llm-dの創設メンバーは同社の他にNVIDIA、Google Cloud、CoreWeave、IBM Research。また、AMD、Cisco、Hugging Face、Intel、Lambda、Mistral AIがパートナーとして参画している。
Copyright © ITmedia, Inc. All Rights Reserved.