Qwen-Nextの実力を検証！MacBookで性能を実測レビュー

Aru

Qwen3-30B-A3Bが登場してからまだそれほど経っていませんが、Alibabaから新たにQwen3-Nextが発表され、MLXで動作するモデルが公開されていたので、早速試してみました。この記事では、MacBook Pro（M4Max, 128GB）で動作させた速度などをレビューします。

Contents

Qwen-Nextの概要
Qwen-Nextベンチマーク
まとめ

Qwen-Nextの概要

Qwen-Nextは、Alibabaの発表によると、1/10のコストでトレーニングでき、従来モデルより高速に動作可能だとされています。

性能的には、Qwen3-235B-A22Bという235Bのモデルと同等性能で、Thinkingモデルについては一部のベンチマークでは、Gemini-2.5-Flash-Thinkingを上回ると書かれています。

Thinkingモデルについては、上位のQwen3-235B-A22B-Thinkingに迫ると書かれているので、235Bのモデルよりは性能が低いみたいです。とはいえ、40Bで235B相当というのは驚きです。

書かれている特徴は以下の通り。他にも特徴はありますが、利用する上では下記の２つかなと思って他は割愛しています（詳しくはこちら）

Hybrid Attention
非常に長いコンテキストを効率的に処理可能に
High-Sparsity Mixture-of-Experts (MoE)
全体の3.7%のみがアクティブになるという低いアクティベーション率による高速化。Qwen3-Next では、共通の 1 つのエキスパートを組み合わせて合計 512 のエキスパートということです（10のエキスパートが同時アクティベート）

今回は9/16日にMacで動作するMLX版のQwen-Nextが公開されていましたので、そちらを動作させてみました。公開されているのはInstructで、Thinkingモデルはないようです。個人的にはQwen-30B-A3Bのように/think, /no_thinkをモードを切り替えで使えるモデルが好きなのですが、ここは残念です。

llama.cppで動作するGGUFのモデルは提供されていないみたいです。いまのところ、LMStudioで動かせるのはMacだけのようです。

リンク

Qwen-Nextベンチマーク

動作環境

今回のベンチマークは、以下の環境で行いました。

MacBook Pro（M4Max, 128GB）
LMStudio
MLXモデル

Qwen-Next-80Bについて

ダウンロードしたところ、サイズは44.86 GBでした。80Bモデルで40GBクラスということから、4bit量子化されたモデルだとわかります。

ベンチマーク

以下、ベンチマーク結果です。同じようなMoEモデルとしてOpenAIのgpt-ossを比較対象としました。

長いプロンプトの場合

Qwen-nextのリリースを見る限り、コンテキストが大きい時の速度も高速みたいなことが書かれていたのでコンテキスト（入力）を増やした実験もやってみました。

ロングコンテキスト（入力が大きい）時に、応答の優位性もあるみたいですが、ここは評価していません。品質の良し悪しは主観によるところが大きいので。

芥川龍之介の「羅生門」全文を与えて要約するプロンプトで測定してみました。羅生門全文は日本語で「約6000文字」です。

表の速度比は、短いプロンプトと長いプロンプトの速度比率（長いプロンプトのtok/s÷短いプロンプトのtok/s）です。

	tok/秒	First Token	速度比
Qwen-next-80b	60.63 tok/sec	15.98s	1.14
Qwen3-30B-A3B	68.01 tok/sec	3.83s	1.22
gpt-oss-20b	34.85 tok/sec	4.73s	2.34
gpt-oss-120b	24.57 tok/sec	9.46s	2.12

これを見るとgpt-ossは、短いプロンプトの時と比べて2倍近く遅くなっていることがわかります。一方、Qwen系は処理速度低下が少なく、Qwen-Nextは14%程度しか低下していないことがわかります。

長文の入力に対しては、gpt-oss-20bより高速だったのは驚きです。

一方、First Tokenの出力までの時間が、他と比べて遅い部分は気になりました。

確かに、長いプロンプトで差が出ています。これは、会話を続けても同じようにプロンプトが長くなるので、対話している間の速度低下も抑えられることを示しています。

応答品質について

品質については、個人の主観によるところが大きいと思うので、あくまで「私の感想」ですが、ちょっとチャットして感じでは、Qwen3-30B-A3Bより洗練された印象です。

また、チャットする範囲では特に小さなモデルだからという感じもありません。

MCPでGoogle Searchを使うように設定すれば、最新情報をWebから取得して回答できるため、クラウドサービスを利用しているのと大差ない感覚で使えます。

とりあえず、競技プログラミングの問題としてAtCoder ABC-423E問題を解かせてみましたが、正しそうな回答を出力しました（「正しそう」と表現している理由は、解法が正いこととプログラムを目視で確認しただけで実際にACしているわけではないため）。推論モデルではないので厳しいかと思いましたが、サクッと回答したのは意外でした。

試した問題が数学より（＝生成AIが得意）だったので、解答できた感じがします。