Alibaba Cloud、「DeepSeek V3」「GPT-4o」超えをうたうMoE LLM「Qwen2.5-Max」を提供開始　モデルを試す方法は？：「ほとんどのベンチマークで優れた性能を発揮」

Alibaba Cloudは、Mixture of Expertアーキテクチャを採用した同社の大規模言語モデル「Qwen2.5-Max」のAPI提供を開始した。

» 2025年01月31日 08時00分公開

[＠IT]

この記事は会員限定です。会員登録（無料）すると全てご覧いただけます。

　Alibaba Cloudは2025年1月28日（中国時間）、「Mixture of Expert」（MoE：混合エキスパート）アーキテクチャを採用した大規模言語モデル（LLM）「Qwen2.5-Max」を発表し、同モデルのAPIをAlibaba Cloudで提供開始した。

　Qwen2.5-Maxは、20兆以上のトークンで事前トレーニングされ、教師ありファインチューニング（SFT）と人間のフィードバックによる強化学習（RLHF：Reinforcement Learning from Human Feedback）で事後トレーニングされている。

DeepSeek V3やGPT-4oを超えるパフォーマンスをうたう

続きを閲覧するには、ブラウザの JavaScript の設定を有効にする必要があります。

中国の新興AI企業の高性能オープンソースLLM「DeepSeek-R1」登場　注目の理由は？
中国のAIスタートアップであるDeepSeekは、大規模言語モデル「DeepSeek-R1」と「DeepSeek-R1-Zero」およびDeepSeek-R1から蒸留した6つの小型モデルをオープンソースとして公開した。
Alibaba Cloud、推論能力に焦点を当てたAIモデル「QwQ-32B-Preview」を発表　4つのベンチマークを公開
Alibaba CloudのQwenチームは、推論能力の向上に焦点を当てた実験的AIモデル「QwQ-32B-Preview」を発表した。
中国の零一万物（01.AI）、コーディング用LLM「Yi-Coder」をオープンソースとして公開
中国のAIスタートアップ零一万物（01.AI）は、コーディング用大規模言語モデル（LLM）「Yi-Coder」をオープンソースとして公開した。