Le géant chinois Alibaba Group lance le modèle d'IA Qwen 3 avec de nouvelles capacités de raisonnement hybride

**Anthony** · Hier, 20h01

Le géant chinois de la Tech Alibaba Group lance le modèle d'IA Qwen 3, doté de nouvelles capacités de raisonnement hybride, et affirme qu'il surpasse les modèles d'IA de Google, d'OpenAI et de DeepSeek

Alibaba Group a lancé Qwen 3, une nouvelle version de son modèle d'intelligence artificielle (IA). Cette sortie s'inscrit dans le cadre de la concurrence croissante dans le domaine de l'IA en Chine, où des startups locales comme DeepSeek ont créé des modèles performants à des prix inférieurs à ceux des entreprises occidentales.

Alibaba Group Holding Limited, connu sous le nom d'Alibaba, est une société technologique multinationale chinoise spécialisée dans le commerce électronique, la vente au détail, l'Internet et la technologie. Fondée le 28 juin 1999 à Hangzhou, Zhejiang, l'entreprise fournit des services de vente de consommateur à consommateur (C2C), d'entreprise à consommateur (B2C) et d'entreprise à entreprise (B2B) via des places de marché chinoises et mondiales, ainsi que des services de consommation locale, de médias numériques et de divertissement, de logistique et de cloud computing. Elle possède et exploite un portefeuille diversifié d'entreprises à travers le monde dans de nombreux secteurs d'activité.

La récente initiative du géant asiatique fait suite au lancement par Alibaba de Qwen 2.5-Max, un modèle d'IA qui, selon l'entreprise, surpasse GPT-4o, DeepSeek-V3 et Llama-3.1-405B de Meta. La sortie de ce modèle, qui a coïncidé avec le premier jour du nouvel An lunaire, période de congé pour la plupart des Chinois, témoigne de la pression concurrentielle à laquelle Alibaba est confronté de la part d'acteurs nationaux en plein essor.

Le lancement de Qwen 3 intervient, quant à elle, à un moment où les entreprises technologiques chinoises renforcent leurs capacités en matière d'IA. Baidu, par exemple, a récemment lancé ses modèles Ernie 4.5 Turbo et Ernie X1 Turbo, renforçant ainsi la concurrence. L'initiative d'Alibaba répond ainsi au succès de DeepSeek dans la création de modèles d'IA efficaces à des prix moins élevés, ce qui remet en cause la domination des leaders occidentaux tels que Google et OpenAI.

Qwen 3 est open-source, avec des modèles disponibles sur des plateformes telles que Hugging Face et GitHub. Cette initiative devrait encourager la participation de la communauté et aider les développeurs à l'adopter plus rapidement. Les analystes considèrent qu'il s'agit d'une mesure forte prise par Alibaba pour concurrencer les modèles américains et renforcer son rôle dans le domaine de l'IA à l'échelle mondiale.

Implications pour le secteur de l'IA

L'introduction du Qwen 3 et d'autres modèles d'IA chinois témoigne des progrès rapides de la Chine en matière de recherche et de développement dans le domaine de l'IA, soutenus à la fois par le gouvernement et par l'innovation privée. La concurrence incite les laboratoires de recherche américains à améliorer leurs technologies d'IA et a suscité des discussions sur la limitation de l'accès des entreprises chinoises à d'importants outils d'IA, tels que les puces haut de gamme.

Alors qu'Alibaba continue d'investir dans l'IA, l'accent mis sur les modèles ouverts et les compétences de raisonnement avancées lui permet de répondre au besoin croissant de solutions d'IA dans diverses industries. Les performances de Qwen 3 seront suivies de près, non seulement pour leur impact sur les actions d'Alibaba, mais aussi pour leurs effets sur le marché mondial de l'IA.

Principales fonctionnalités de Qwen3

Qwen 3 est un grand modèle de langage qui combine les caractéristiques traditionnelles de l'IA avec des capacités de raisonnement avancées. Le modèle le plus performant compte 235 milliards de paramètres et utilise un mélange d'experts qui améliore l'efficacité.

Qwen 3 dispose en outre d'une fenêtre contextuelle native de 32 K, qui peut être étendue à 128 K avec YaRN. Il n'active que huit experts sur 128 par jeton, ce qui réduit le coût de l'inférence par rapport à des systèmes plus denses.

Modes de raisonnement hybrides

Les modèles Qwen3 introduisent un « mode raisonnement » qui permet aux développeurs de passer d'un raisonnement étape par étape pour les questions complexes à des réponses rapides pour les questions plus simples. Cette approche hybride de la résolution de problèmes rend Qwen 3 plus utile pour les développeurs.

Les modèles Qwen3 prennent en charge deux modes :

Le mode raisonnement : Dans ce mode, le modèle prend le temps de raisonner étape par étape avant de fournir la réponse finale. Ce mode est idéal pour les problèmes complexes qui nécessitent un raisonnement plus approfondi.
Mode sans raisonnement : Dans ce mode, le modèle fournit des réponses rapides, presque instantanées, qui conviennent aux questions plus simples pour lesquelles la rapidité est plus importante que la profondeur.

Cette flexibilité permet aux utilisateurs de contrôler le degré de « raisonnement » effectué par le modèle en fonction de la tâche à accomplir. Par exemple, les problèmes les plus difficiles peuvent être abordés par un raisonnement approfondi, tandis que les plus simples peuvent recevoir une réponse directe sans délai. L'intégration de ces deux modes améliore considérablement la capacité du modèle à mettre en œuvre un contrôle stable et efficace du budget de raisonnement. Qwen3 présente des améliorations de performance évolutives et régulières qui sont directement corrélées au budget de raisonnement informatique alloué. Cette conception permet aux utilisateurs de configurer plus facilement des budgets spécifiques à une tâche, ce qui permet d'atteindre un équilibre plus optimal entre la rentabilité et la qualité de l'inférence.

Nom : Alibaba Qwen3 Fig 4.PNG
Affichages : 809
Taille : 74,4 Ko

Prise en charge multilingue

Les modèles Qwen3 prennent en charge 119 langues et dialectes, dont le français. Cette capacité multilingue étendue ouvre de nouvelles possibilités pour les applications internationales, permettant aux utilisateurs du monde entier de bénéficier de la puissance de ces modèles.

Capacités agentiques améliorées

Alibaba a optimisé les modèles Qwen3 pour le codage et les capacités agentiques, et a également renforcé la prise en charge du MCP. Des exemples sont donnés ci-dessous pour montrer comment Qwen3 raisonne et interagit avec l'environnement.

Nom : Alibaba Qwen3 Fig 7.png
Affichages : 118
Taille : 289,4 Ko

Performances de Qwen3 sur les principaux benchmarks

Le modèle phare d'Alibaba, Qwen3-235B-A22B, obtient des résultats compétitifs dans les évaluations comparatives du codage, des mathématiques, des capacités générales, etc., par rapport à d'autres modèles de premier plan tels que DeepSeek-R1, o1, o3-mini, Grok-3 et Gemini-2.5-Pro. En outre, le petit modèle MoE, Qwen3-30B-A3B, surpasse QwQ-32B avec 10 fois plus de paramètres activés, et même un petit modèle comme Qwen3-4B peut rivaliser avec les performances de Qwen2.5-72B-Instruct.

Nom : Alibaba Qwen3 Fig 1.PNG
Affichages : 113
Taille : 44,6 Ko

Nom : Alibaba Qwen3 Fig 2.PNG
Affichages : 113
Taille : 48,8 Ko

Alibaba a mis en place une pondération ouverte pour deux modèles MoE : Qwen3-235B-A22B, un grand modèle avec 235 milliards de paramètres totaux et 22 milliards de paramètres activés, et Qwen3-30B-A3B, un modèle MoE plus petit avec 30 milliards de paramètres totaux et 3 milliards de paramètres activés. En outre, six modèles denses sont également à pondération ouverte, notamment Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B et Qwen3-0.6B, sous licence Apache 2.0.

Nom : Alibaba Qwen3 Fig 3.PNG
Affichages : 122
Taille : 15,4 Ko

Les modèles post-entraînés, tels que Qwen3-30B-A3B, ainsi que leurs équivalents pré-entraînés (par exemple, Qwen3-30B-A3B-Base), sont désormais disponibles sur des plateformes telles que Hugging Face, ModelScope et Kaggle. Pour le déploiement, Alibaba recommande d'utiliser des frameworks tels que SGLang et vLLM. Pour une utilisation locale, des outils tels que Ollama, LMStudio, MLX, llama.cpp et KTransformers sont fortement recommandés. Ces options permettent aux utilisateurs d'intégrer facilement Qwen3 dans leurs flux de travail, que ce soit dans des environnements de recherche, de développement ou de production.

Envoyé par Alibaba Group

Nous pensons que la publication et l'ouverture de Qwen3 feront progresser de manière significative la recherche et le développement de grands modèles de fondations. Notre objectif est de permettre aux chercheurs, aux développeurs et aux organisations du monde entier d'élaborer des solutions innovantes à l'aide de ces modèles de pointe.

Pré-entraînement

En termes de prétraînement, l'ensemble de données de Qwen3 a été considérablement élargi par rapport à Qwen2.5. Alors que Qwen2.5 a été pré-entraîné sur 18 mille milliards de tokens, Qwen3 utilise presque le double de cette quantité, avec environ 36 mille milliards de tokens couvrant 119 langues et dialectes. Pour constituer ce vaste ensemble de données, Alibaba a collecté des données non seulement sur le web, mais aussi dans des documents de type PDF. L'entreprise a utilisé Qwen2.5-VL pour extraire le texte de ces documents et Qwen2.5 pour améliorer la qualité du contenu extrait. Pour augmenter la quantité de données mathématiques et de code, Qwen2.5-Math et Qwen2.5-Coder ont été utilisés pour générer des données synthétiques. Celles-ci comprennent des manuels, des paires de questions-réponses et des extraits de code.

Le processus de pré-entraînement se compose de trois étapes. Au cours de la première étape (S1), le modèle a été pré-entraîné sur plus de 30 mille milliards de tokens avec une longueur de contexte de 4K tokens. Cette étape a permis au modèle d'acquérir des compétences linguistiques de base et des connaissances générales. Lors de la deuxième étape (S2), l'ensemble de données a été amélioré en augmentant la proportion de données à forte intensité de connaissances, telles que les tâches STEM, de codage et de raisonnement. Le modèle a ensuite été pré-entraîné sur 5 mille milliards de tokens supplémentaires. Lors de la dernière étape, des données de haute qualité sur les contextes longs ont été utilisées pour étendre la longueur du contexte à 32 000 tokens. Cela permet de s'assurer que le modèle peut traiter efficacement des entrées plus longues.

Nom : Alibaba Qwen3 Fig 5.PNG
Affichages : 118
Taille : 61,0 Ko

Grâce aux progrès de l'architecture du modèle, à l'augmentation des données d'entraînement et à des méthodes d'entraînement plus efficaces, les performances globales des modèles de base denses de Qwen3 correspondent à celles des modèles de base de Qwen2.5 avec un plus grand nombre de paramètres. Par exemple, Qwen3-1.7B/4B/8B/14B/32B-Base est aussi performant que Qwen2.5-3B/7B/14B/32B/72B-Base, respectivement. Notamment, dans des domaines tels que les STEM, le codage et le raisonnement, les modèles de base denses Qwen3 sont même plus performants que les modèles Qwen2.5 plus volumineux. Les modèles de base Qwen3-MoE atteignent des performances similaires à celles des modèles de base denses Qwen2.5 tout en n'utilisant que 10 % des paramètres actifs. Il en résulte des économies significatives en termes de coûts de formation et d'inférence.

Post-entraînement

Pour développer le modèle hybride capable de raisonner étape par étape et de réagir rapidement, Alibaba a mis en place un processus de formation en quatre étapes. Ce pipeline comprend : (1) le démarrage à froid d'une longue chaîne de pensée (CoT), (2) l'apprentissage par renforcement (RL) basé sur le raisonnement, (3) la fusion des modes de raisonnement et (4) le RL général.

Nom : Alibaba Qwen3 Fig 6.PNG
Affichages : 112
Taille : 50,8 Ko

Au cours de la première étape, Alibaba a affiné les modèles en utilisant diverses données de longue chaîne de pensée, couvrant diverses tâches et domaines tels que les mathématiques, le codage, le raisonnement logique et les problèmes STEM. Ce processus visait à doter le modèle de capacités de raisonnement fondamentales. La deuxième étape s'est concentrée sur l'augmentation des ressources informatiques pour le RL, en utilisant des récompenses basées sur des règles pour améliorer les capacités d'exploration et d'exploitation du modèle.

Au cours de la troisième étape, les capacités de non-réflexion ont été intégrées au modèle de raisonnement en l'affinant sur la base d'une combinaison de données CoT longues et de données d'ajustement de l'instruction couramment utilisées. Ces données ont été générées par le modèle de raisonnement amélioré de la deuxième étape, garantissant un mélange homogène de capacités de raisonnement et de réaction rapide. Enfin, au cours de la quatrième étape, Alibaba a appliqué le RL à plus de 20 tâches du domaine général afin de renforcer les capacités générales du modèle et de corriger les comportements indésirables. Ces tâches comprenaient le suivi des instructions, le respect des formats, les capacités des agents, etc.

Développement avec Qwen3

Ci-dessous se trouve un guide simple pour utiliser Qwen3 sur différents frameworks. Un exemple standard d'utilisation de Qwen3-30B-A3B dans les transformateurs Hugging Face est tout d'abord fourni :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
from modelscope import AutoModelForCausalLM, AutoTokenizer
 
model_name = "Qwen/Qwen3-30B-A3B"
 
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
 
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # Switch between thinking and non-thinking modes. Default is True.
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
 
# conduct text completion
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 
 
# parsing thinking content
try:
    # rindex finding 151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0
 
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
 
print("thinking content:", thinking_content)
print("content:", content)

Pour désactiver le raisonnement, il suffit de modifier l'argument enable_thinking comme suit :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # True is the default value for enable_thinking.
)

Pour le déploiement, il est possible d'utiliser sglang>=0.4.6.post1 ou vllm>=0.8.4 pour créer un point de terminaison d'API compatible avec OpenAI :

SGLang :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3

vLLM :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

Si un utilisateur souhaite l'utiliser pour le développement local, il peut utiliser ollama en lançant une simple commande ollama run qwen3:30b-a3b pour jouer avec le modèle, ou il peut utiliser LMStudio ou llama.cpp et ktransformers pour construire localement.

Utilisations avancées

Alibaba fournit un mécanisme de commutation souple qui permet aux utilisateurs de contrôler dynamiquement le comportement du modèle lorsque enable_thinking=True. Plus précisément, l'utilisateur peut ajouter /think et /no_think aux invites ou aux messages du système pour changer le mode de raisonnement du modèle d'un tour à l'autre. Le modèle suivra l'instruction la plus récente dans les conversations à plusieurs tours.

Voici un exemple de conversation multi-tour :

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
from transformers import AutoModelForCausalLM, AutoTokenizer
 
class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-30B-A3B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []
 
    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]
 
        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )
 
        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)
 
        # Update history
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})
 
        return response
 
# Example Usage
if __name__ == "__main__":
    chatbot = QwenChatbot()
 
    # First input (without /think or /no_think tags, thinking mode is enabled by default)
    user_input_1 = "How many r's in strawberries?"
    print(f"User: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"Bot: {response_1}")
    print("----------------------")
 
    # Second input with /no_think
    user_input_2 = "Then, how many r's in blueberries? /no_think"
    print(f"User: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"Bot: {response_2}") 
    print("----------------------")
 
    # Third input with /think
    user_input_3 = "Really? /think"
    print(f"User: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"Bot: {response_3}")

Utilisations agentiques

Qwen3 se démarque par ses capacités d'appel d'outils. Alibaba recommande d'utiliser Qwen-Agent pour tirer le meilleur parti de la capacité agentique de Qwen3. Qwen-Agent encapsule les modèles d'appel d'outil et les analyseurs d'appel d'outil en interne, ce qui réduit considérablement la complexité du codage.

Pour définir les outils disponibles, l'utilisateur peut utiliser le fichier de configuration MCP, utiliser l'outil intégré de Qwen-Agent ou intégrer d'autres outils par lui-même.

Code :

Sélectionner tout - Visualiser dans une fenêtre à part

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
from qwen_agent.agents import Assistant
 
# Define LLM
llm_cfg = {
    'model': 'Qwen3-30B-A3B',
 
    # Use the endpoint provided by Alibaba Model Studio:
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),
 
    # Use a custom endpoint compatible with OpenAI API:
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',
 
    # Other parameters:
    # 'generate_cfg': {
    #         # Add: When the response content is `<think>this is the thought</think>this is the answer;
    #         # Do not add: When the response has been separated by reasoning_content and content.
    #         'thought_in_content': True,
    #     },
}
 
# Define Tools
tools = [
    {'mcpServers': {  # You can specify the MCP configuration file
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # Built-in tools
]
 
# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)
 
# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

Travaux futurs

Qwen3 représente une étape importante dans le parcours d'Alibaba vers l'intelligence artificielle générale (AGI) et la superintelligence artificielle (ASI). En augmentant la préformation et l'apprentissage par renforcement (RL), le groupe a atteint des « niveaux d'intelligence » plus élevés. Alibaba a également intégré de manière transparente les modes de raisonnement et de non-raisonnement, offrant aux utilisateurs la flexibilité de contrôler le budget de raisonnement. En outre, Alibaba a étendu la prise en charge d'un large éventail de langues, améliorant ainsi l'accessibilité au niveau mondial.

Envoyé par Alibaba Group

Pour l'avenir, nous visons à améliorer nos modèles dans de multiples dimensions. Il s'agit notamment d'affiner les architectures de modèles et les méthodologies de formation afin d'atteindre plusieurs objectifs clés : la mise à l'échelle des données, l'augmentation de la taille des modèles, l'extension de la longueur du contexte, l'élargissement des modalités et l'avancement de la RL avec retour d'information sur l'environnement pour le raisonnement à long terme. Nous pensons que nous sommes en train de passer d'une ère centrée sur la formation de modèles à une ère centrée sur la formation d'agents. Notre prochaine itération promet d'apporter des avancées significatives au travail et à la vie de chacun.

Alors qu'Alibaba vient d'annoncer le lancement de son dernier modèle Qwen3, les progrès rapides des performances de l'IA ont également façonné la perception du public. Après que le modèle o3 de ChatGPT a obtenu un score de 136 au test de QI Mensa, une enquête a révélé qu'un nombre alarmant (25 %) d'utilisateurs de la génération Z pensent que l'IA est déjà consciente, tandis que plus de la moitié s'attendent à ce qu'elle le soit bientôt. Ce changement rapide de sentiment reflète un malaise croissant quant aux limites entre l'intelligence et la conscience.

Source : Alibaba Group

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous cette initiative d'Alibaba Group crédible ou pertinente ?

Voir aussi :

Le groupe Alibaba mise à fond sur l'IA en annonçant son intention d'investir au moins 53 milliards de dollars au cours des trois prochaines années pour stimuler son infrastructure de cloud computing et d'IA

Alibaba dévoile Qwen2.5-VL-32B, un nouveau modèle d'IA multimodale combinant vision, langage et raisonnement mathématique

Le nouveau modèle d'IA Qwen2-Math d'Alibaba excelle en mathématiques et surpasse ses concurrents, il a fait preuve de performances supérieures en matière de raisonnement mathématique complexe