Qwen
開発者: Alibaba Cloud / Qwen Team
Alibaba Cloudが開発する大規模言語モデルシリーズ「通義千問」。2023年の初代Qwenから2025年のQwen3世代まで急速に進化し、119言語対応・256Kコンテキストを実現。テキスト生成のコアモデル(Qwen1.5→Qwen2→Qwen2.5→Qwen3)に加え、ビジョン(Qwen-VL)、コーディング(Qwen-Coder)、推論(QwQ)、数学(Qwen-Math)、埋め込み(Qwen-Embedding)など専門特化モデルを展開。Apache 2.0ライセンスで商用利用可能。
家系図
モデル一覧 (13)
Qwen1.5
2024年2月4日公開。Qwenシリーズの改良版で、GQA、SwiGLU、RMSNormを採用したDecoder-onlyアーキテクチャ。3兆トークンで学習し、32Kコンテキストをサポート。0.5Bから110Bまでの幅広いサイズラインナップとMoE版も提供。12言語に対応し、ChatML形式のプロンプトフォーマットを使用。
CodeQwen1.5
2024年4月16日公開。Qwen1.5-7Bベースのコード特化モデル。約3兆トークンのコード関連データで学習。92言語のプログラミング言語をサポート。64Kコンテキスト対応。Fill-in-the-Middle(FIM)によるコード補完をサポート。HumanEval 83.5%(Chat版)、SWE-BenchでGPT-3.5超え。
Qwen2
2024年6月7日公開。7兆トークンで学習し、約30言語に対応。7Bと72Bは128Kコンテキストをサポート(YaRN + Dual Chunk Attention)。GQA、RoPE、SwiGLU、RMSNormを採用したDecoder-onlyアーキテクチャ。MoE版(57B-A14B)も提供。
Qwen2.5
2024年9月19日公開。18兆トークンで学習し、29言語以上に対応。7B以上は128Kコンテキストをサポート。YARN + Dual Chunk Attentionによる長文脈処理。コーディング・数学・指示追従能力が大幅に向上。Qwen2.5シリーズの基盤モデル。
Qwen2.5-Coder
2024年11月12日公開。5.5兆トークン(70%コード、20%テキスト、10%数学)で学習したコード特化モデル。92言語のプログラミング言語をサポート。7B以上は128Kコンテキスト対応。HumanEval 92.7%、BigCodeBench・LiveCodeBenchでSOTA達成。
Qwen2.5-Math
2024年9月19日公開。1兆トークン以上(Qwen Math Corpus v2)で学習した数学特化モデル。Chain-of-Thought(CoT)推論とTool-integrated Reasoning(TIR、Pythonインタプリタ使用)をサポート。中国語・英語バイリンガル。MATH 85.9%(Greedy)、TIR使用時は92.9%(RM@8)を達成。
Qwen2.5-VL
2025年1月28日公開。画像・動画・ドキュメント理解に対応したビジョン言語モデル。ネイティブ動的解像度ViT(14ピクセルパッチ)とM-RoPEを採用。1時間以上の動画理解、19言語以上のOCRに対応。GUIエージェント機能も搭載。32K-128Kコンテキスト。
QwQ
2025年3月6日公開(Preview: 2024年11月28日)。推論特化モデル「Qwen with Questions」。o1-miniを大幅に上回る性能(AIME24: 79.5% vs 63.6%、LiveCodeBench: 63.4% vs 53.8%)。Chain-of-Thought推論で複雑な問題を段階的に解決。128Kコンテキスト、29言語以上対応。
Qwen3
2025年4月29日公開。36兆トークンで学習し、119言語に対応。256Kネイティブコンテキスト(1Mまで拡張可能)。GQA、QK LayerNorm、RoPE、SwiGLU、RMSNormを採用。Dense版(0.6B-32B)とMoE版(30B-A3B、235B-A22B)を提供。Thinkingモード(<think>タグ)による深い推論をサポート。
Qwen3-Coder
2025年7月22日公開。7.5兆トークン(70%コード)で学習したコード特化MoEモデル。100以上のプログラミング言語をサポート。256Kネイティブコンテキスト(1Mまで拡張可能)。SWE-Bench Verifiedで67-69.6%を達成しオープンSOTA。160エキスパート、8選択のMoEアーキテクチャ。
Qwen3-Embedding
2025年6月5日公開。Qwen3ベースの埋め込みモデル。MTEB Multilingual Overallで#1(70.58)を達成。100以上の自然言語・プログラミング言語をサポート。Matryoshka Representation Learning(MRL)による可変次元埋め込み、LoRAファインチューニングに対応。Rerankerモデルも提供。
Qwen3-VL
2025年9月23日公開。Qwen3ベースのビジョン言語モデル。ネイティブ動的解像度ViT(16ピクセルパッチ)、Interleaved-MRoPE、DeepStack fusionを採用。1時間以上の動画理解、32言語以上のOCRに対応。256Kコンテキスト(1Mまで拡張可能)。Dense版とMoE版を提供。
Qwen3-Next
2025年9月10日公開。革新的なHybrid Transformer-Mambaアーキテクチャを採用。80Bパラメータながら3Bのみアクティブで高効率。256Kネイティブコンテキスト(1Mまで拡張可能)。Gated DeltaNet(線形アテンション)とHigh-Sparsity MoE(512エキスパート、10アクティブ)を組み合わせ、Multi-Token Prediction(MTP)も実装。