Qualité vs prix : le modèle d'IA Mistral 8x7B serait le plus rapide et le plus accessible en matière de coût

**Anthony** · 05/02/2024, 20h18

ChatGPT vs. Google Bard vs. Bing Chat vs. Claude : quelle est la meilleure solution d'IA générative ? D'après une étude de SearchEngineLand

Le paysage de l'IA générative a considérablement évolué au fil des ans, et toutes les grandes plates-formes existantes ont intégré de nouveaux éléments dans le mélange.

ChatGPT, le produit d'OpenAI, a été mis à jour pour inclure une large gamme de plug-ins qui pourraient finir par le rendre encore plus efficace. Du côté de Google, le géant de la technologie a reçu la mise à jour Gemini, qui possède des capacités de raisonnement multimodal. Comme si cela était insuffisant, Anthropic a également développé sa propre solution, Claude, une nouvelle IA générative qui possède un grand potentiel.

Récemment, Eric Enge de PilotHolding a repris une étude réalisée il y a de cela 10 mois (publiée sur SearchEngineLand) dans le but de déterminer laquelle de ces IA génératives fonctionnait le mieux. Bard, ChatpGPT, Bing Chat Balanced, Bing Chat Creative et Bard ont tous été testés pour déterminer lequel d'entre eux était arrivé en tête.

Il s'avère que c'est Bard qui a obtenu les meilleurs résultats sur les 44 requêtes qui ont été posées dans le cadre de ce test. Le chatbot a même obtenu un score parfait de 4 sur 4 pour 2 de ces requêtes, probablement parce qu'il s'agissait de requêtes de recherche locale, où tous les éléments ont été pris en compte.

Malgré cela, Bing Chat s'est avéré très utile d'une toute autre manière. Le chatbot fournissait en effet des références qui pouvaient être utilisées pour déterminer l'origine de toutes les informations qui lui étaient fournies. Une telle fonctionnalité peut s'avérer extrêmement utile, car cela pourrait potentiellement permettre aux utilisateurs de fournir des attributions exactes sans faille.

Quant à ChatGPT, ses performances sont insuffisantes en raison de son manque de connaissance de l'actualité, de son manque de pertinence par rapport aux recherches locales et de son incapacité à accéder aux pages web actuelles.

Nom : Total-scores-by-category.png.png
Affichages : 57935
Taille : 75,1 Ko

Les catégories de requêtes testées étaient les suivantes :

Création d'articles : Il s'agissait de déterminer dans quelle mesure un article généré était prêt à être publié.
Bio : Ces requêtes visaient à obtenir des informations sur une personne et ont été notées en fonction de leur exactitude.
Commercial : Ces requêtes visent à obtenir des données sur des produits, et la qualité de l'information est prise en compte dans le score.
Désambiguïsation : Certaines requêtes bio concernent deux personnes ou plus portant le même nom. Les chatbots ont été notés en fonction de leur capacité à distinguer les deux.
Blague : Il s'agissait de questions non sérieuses destinées à évaluer dans quelle mesure le chatbot évitait d'y répondre.
Médical : Bien que les chatbots puissent être en mesure de fournir des informations à ce sujet, ils ont été notés en fonction de leur capacité à recommander ou non à l'utilisateur de consulter un médecin.
Articles de fond : Dans ce test, le chatbot a été évalué en fonction de l'ampleur des modifications à apporter à un plan qu'il fournissait et qu'un rédacteur pouvait utiliser pour rédiger son propre article.
Local : Ces requêtes auraient idéalement dû recevoir une réponse orientant le demandeur vers des magasins locaux proposant les produits souhaités. Comme mentionné ci-dessus, Bard a été le chatbot le plus performant à cet égard.
Analyse de l'écart de contenu : Cette requête visait à obtenir des réponses susceptibles de recommander des améliorations du contenu d'une page donnée.

Ces catégories ont été notées sur la base de cinq paramètres, à savoir le degré de pertinence des réponses, leur exactitude, l'exhaustivité des réponses, leur qualité globale et, enfin, les liens avec les ressources.

Bard a obtenu un score de plus de 90 % pour le respect du sujet, bien que ChatGPT l'ait dépassé de peu et que Claude ait été le chatbot le moins performant sur ce point précis. En revanche, la précision est un domaine dans lequel ChatGPT est sérieusement à la traîne, alors que Bard excelle dans ce domaine. Dans l'ensemble, il semble que Bard soit en train de devenir le meilleur chatbot qui puisse exister.

Source : "ChatGPT vs. Google Bard vs. Bing Chat vs. Claude: Which generative AI solution is best?" (SearchEngineLand)

Et vous ?

Quel est votre avis sur le sujet ?

Trouvez-vous que les résultats de cette étude sont crédibles ou pertinentes ?

Voir aussi :

Quel est le meilleur chatbot d'intelligence artificielle ? Cette étude pourrait apporter la réponse, en attribuant le podium à ChatGPT 4 et à deux versions du chatbot Claude d'Anthropic

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source, mais la méthode d'évaluation est controversée

**Nym4x** · 07/02/2024, 18h16

Ce ne sont pas des résultats étonnants : google a créé tensorflow qui est utilisé pour créer chatgpt justement. J’attend de voir ce que va proposer apple en matière d’ia + association avec le vision pro. Cela risque d’être à la fois impressionnant mais dystopique.

**Mathis Lucas** · 28/03/2024, 13h56

Qualité vs prix : Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût
tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité

Une étude comparative portant sur les performances des grands modèles de langage (LLM) les plus populaires du marché révèle que la startup française Mistral AI talonne de très près les géants de la Silicon Valley. L'étude compare et analyse les modèles en fonction de critères clés comme la qualité, le prix, les performances et la vitesse (débit en jetons par seconde et latence), la fenêtre contextuelle, etc. Les résultats suggèrent que Mistral 8x7B est le plus rapide et le plus abordable en matière de prix, tandis que GPT-4 Turbo et Claude 3 Opus fournissent des réponses de meilleure qualité. Dans l'ensemble, Mixtral 8x7B semble faire mieux que Gemini Pro de Google.

OpenAI est brièvement devenu le leader incontesté de la course à l'IA ces dernières années et son chatbot d'IA ChatGPT a connu un succès retentissant après son lancement. Mais, même avec ses modèles d'IA les plus avancés, GPT-3.5 et GPT-4 Turbo, OpenAI n'affiche plus désormais une suprématie totale sur les différents benchmarks. Les concurrents d'OpenAI semblent avoir rattrapé en quelques mois leur retard et ont lancé des modèles d'IA qui affichent des performances intéressantes sur plusieurs benchmarks. L'étude comparative des modèles les plus populaires apporte de nouvelles informations sur l'état de l'IA.

Nom : 1.png
Affichages : 18547
Taille : 51,8 Ko

L'étude a été réalisée par Artificial Analysis, une plateforme qui fournit des informations pour aider les développeurs, les clients, les chercheurs et les autres utilisateurs de modèles à prendre des décisions éclairées dans leur choix. Elle compare et analyse les modèles en fonction de critères clés comme la qualité, le prix, les performances et la vitesse/rapidité (débit en jetons par seconde et latence), la fenêtre contextuelle, et bien d'autres. Quelques-uns des principaux critères considérés dans l'étude sont :

qualité : l'indice représente la performance relative moyenne normalisée sur les benchmarks Chatbot Arena, MMLU et MT-Bench ;
prix : prix par jeton, représenté en USD par million de jetons. Le prix est un mélange des prix des jetons d'entrée et de sortie ;
prix d'entrée : prix par jeton inclus dans la requête/le message envoyé à l'API, exprimé en USD par million de jetons ;
prix de sortie : prix par jeton généré par le modèle (reçu de l'API), représenté en USD par million de jetons ;
débit : nombre de jetons reçus par seconde pendant que le modèle génère des jetons (c'est-à-dire après que le premier morceau a été reçu de l'API) ;
latence : temps écoulé avant la réception du premier jeton, en secondes, après l'envoi de la demande de l'API ;
fenêtre contextuelle : nombre maximum de jetons d'entrée et de sortie combinés. Les jetons de sortie ont généralement une limite nettement inférieure (variable selon le modèle).

En ce qui concerne la qualité, les résultats montrent que le modèle populaire GPT-4 d'OpenAI est le leader incontesté en matière de qualité, toutes mesures confondues. Cependant, des modèles tels que Gemini Pro et Mixtral 8x7B ont atteint la performance GPT-3.5 pour certaines mesures. Il convient toutefois de rappeler que de nombreux rapports signalent que GPT-4 est devenu trop "paresseux". Cela signifie que GPT-4, sur lequel est basée la version payante de ChatGPT, élude certaines questions ou commence parfois à y répondre, mais ne va pas au bout de ses idées, tout en demandant à l'utilisateur de compléter la réponse.

Nom : 2.png
Affichages : 3331
Taille : 53,6 Ko

La plainte d'un utilisateur indique : « sur n'importe quelle tâche de codage, il saute des parties du code en disant : "vous savez vous-même ce qu'il faut mettre ici". En revanche, Claude 3 Opus peut produire un code entier sans omissions. GPT-4 a tendance à fournir des exemples de code au lieu du code littéral que vous avez fourni (c'est-à-dire qu'il travaille en tant que professeur et non comme un subordonné) ». De nombreux utilisateurs ont rapporté que ChatGPT donne des réponses de moins en moins utiles et dit parfois simplement non à une requête. OpenAI a déclaré avoir résolu les problèmes de "paresse" de ChatGPT.

Toutefois, le rapport publié par Artificial Analysis attribue une note de 100 à GPT-4 Turbo en matière de qualité des réponses. Il s'agit de la note la plus élevée de l'étude. Claude 3 Opus obtient la même note. Rappelons que lors du lancement de Claude 3, Anthropic a déclaré que la variante Opus rivalise avec GPT-4, voire le surpasse, si l'on considère les performances obtenues dans le cadre de divers tests de référence. Ils sont suivis par les modèles Mistral Large et Mistral 8x7B, qui ont respectivement obtenu la note de 88 et de 62 pour la qualité de leurs réponses. Gemini Pro et GPT-3 Turbo obtiennent la même note (60).

Quant aux mesures relatives à la fenêtre contextuelle, GPT-4 Turbo et Claude se distinguent par leurs grandes fenêtres contextuelles. (Notez qu'il existe un compromis entre la qualité et la taille de la fenêtre contextuelle entre GPT-4 Turbo et Claude 2.1.) Claude 3 Opus et Claude 3 Sonnet d'Anthropic offrent chacun une fenêtre contextuelle de 200 000 jetons. C'est la plus grande fenêtre contextuelle du marché de l'IA. GPT-4 Turbo a une fenêtre contextuelle de 128 000 jetons. Ensuite, les modèles Mistral Large, Mistral Medium, Mistral 8x7B et Gemini Pro ont chacun une fenêtre contextuelle beaucoup plus petite de 32 800 jetons.

Nom : Capture d'écran 2024-03-28 135348.png
Affichages : 3474
Taille : 47,0 Ko

Les modèles de meilleure qualité sont généralement plus chers. Cependant, la qualité des modèles varie considérablement et certains modèles open source atteignent aujourd'hui un niveau de qualité très élevé. Le modèle Claude 3 Opus est le modèle le plus cher, avec en moyenne 30 dollars pour un million de jetons. Il est suivi par GPT-4 Turbo (15 dollars pour un million de jetons) et Mistral Large (12 dollars pour un million de jetons). Ensuite, le prix baisse considérablement, avec Gemini Pro (1,8 dollar), Llama 70B (1 dollar) et GPT-3 Turbo (0,8 dollar). Mistral 8x7B est le modèle le moins cher avec en moyenne 0,5 dollar.

Les prix varient considérablement, y compris entre le prix du jeton d'entrée et le prix du jeton de sortie. Selon l'étude, GPT-4 se distingue par un prix supérieur de plusieurs ordres de grandeur à celui de la plupart des autres modèles. Il existe également un compromis entre "la qualité du modèle et le débit", les modèles de meilleure qualité ayant généralement un débit plus faible. En matière de latence, les modèles de la startup française Mistral AI affichent de bonnes performances. Dans le cas de Mistral 8x7B, la latence est de 0,32 seconde et en matière de débit, le modèle peut renvoyer jusqu'à 115,55 jetons par seconde.

Le modèle Llama 70B de Meta affiche des performances similaires en matière de latence (0,33 seconde) avec un débit de 69,59 jetons par seconde. Quant à GPT-4 Turbo, la latence est de 0,63 seconde et le débit de 17,17 jetons par seconde. Les performances de GPT-4 Turbo en matière de latence sont meilleures que celles de Claude 3 Opus. La latence mesurée pour Claude 3 Opus est de 1,46 seconde pour un débit de 25,52 jetons par seconde. Gemini Pro à la latence la plus élevée, soit 1,46 seconde pour un débit de 87,55 jetons par seconde. Mistral Medium et Mistral Large ont la latence la plus faible, soit 0,21 seconde.

Nom : Capture d'écran 2024-03-28 135508.png
Affichages : 3294
Taille : 80,4 Ko

Les données de l'analyse montrent que Mistral 8x7B est le modèle d'IA le plus rapide et le plus accessible en matière de coût, tandis que GPT-4 Turbo et Claude 3 Opus fournissent les réponses avec la meilleure qualité. L'étude indique également que la différence de vitesse entre les modèles les plus rapides et les plus lents est supérieure à 3. Il n'y a pas toujours de corrélation entre la taille des paramètres et la vitesse, ou entre le prix et la vitesse. Ces résultats montrent que l'étau se resserre autour d'OpenAI et que ses modèles peuvent être surpassés par des modèles plus récents sur de nombreux benchmarks populaires.

Par ailleurs, une autre étude comparative publiée récemment indique que Claude 3 Opus est le nouveau leader sur le marché de l'IA. La plateforme d'évaluation Chatbot Arena rapporte que les performances de Claude 3 Opus surpassent désormais celle de GPT-4 sur les principaux benchmarks. Claude 3 Opus occupe la première place avec un score Elo de 1253. Deux récents modèles GPT-4 de prévisualisation le suivent de près, avec des notes respectives de 1251 et 1248. Gemini Pro occupe la quatrième place du classement, avec des performances qui sont légèrement supérieures à celles de Claude 3 Sonnet (1198 points).

Le plus petit modèle Claude 3, Haiku, est parvenu à égaler les performances d'une ancienne version de GPT-4. Pour rappel, Anthropic a lancé Claude 3 en trois tailles différentes : Haiku (le plus petit), Sonnet (de taille moyenne) et Opus (le plus grand). Ces résultats signifient qu'OpenAI n'est plus seul à la tête de la course à l'IA et que les performances de ses modèles peuvent être surpassées. Tous les regards sont désormais tournés vers GPT-5, qui est censé être la réponse d'OpenAI à la pression de ses rivaux. OpenAI assure que GPT-5 sera supérieur à la concurrence dès sa sortie, mais n'a pas fixé une date de lancement.

La concurrence entre Mistral AI, Anthropic, OpenAI, Google, etc., est à l'origine de progrès remarquables dans le domaine de l'IA, en particulier des modèles de langage, ouvrant ainsi la voie à des modèles plus sophistiqués et plus performants susceptibles de révolutionner divers secteurs et applications.

Source : Artificial Analysis

Et vous ?

Quel est votre avis sur le sujet ?

Que pensez-vous des mesures réalisées par le site Artificial Analysis ?

Que pensez-vous des performances dont font preuve les modèles de Mistral AI ?

Que signifie ces observations pour le marché de l'IA et pour les utilisateurs des modèles d'IA ?

Voir aussi

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source, mais la méthode d'évaluation est controversée

Claude 3 Opus devient le nouveau roi et sa variante la plus petite "Haiku" égale les performances d'une version de GPT-4, ce qui met la pression sur OpenAI et son prochain modèle d'IA GPT-5

ChatGPT vs. Google Bard vs. Bing Chat vs. Claude : quelle est la meilleure solution d'IA générative ? D'après une étude de SearchEngineLand