À quel point ChatGPT est-il intelligent ?


Visualiser les performances de ChatGPT dans les examens humains

ChatGPT, un modèle de langage développé par OpenAI, est devenu incroyablement populaire au cours de la dernière année en raison de sa capacité à générer des réponses de type humain dans un large éventail de circonstances.

En fait, ChatGPT est devenu si compétent que les étudiants l’utilisent maintenant pour les aider dans leurs devoirs. Cela a incité plusieurs districts scolaires américains à empêcher les appareils d’accéder au modèle lorsqu’ils sont sur leurs réseaux.

Alors, à quel point ChatGPT est-il intelligent ?

Dans un rapport technique publié le 27 mars 2023, OpenAI a fourni un résumé complet de son modèle le plus récent, connu sous le nom de GPT-4. Ce rapport comprenait un ensemble de résultats d’examens, que nous avons visualisés dans le graphique ci-dessus.

GPT-4 contre GPT-3.5

Pour comparer les capacités de ChatGPT, OpenAI a simulé des tests de divers examens professionnels et universitaires. Cela comprend les SAT, l’examen du barreau et diverses finales de placement avancé (AP).

Les performances ont été mesurées en centilesqui étaient basées sur les distributions de scores les plus récentes disponibles pour les candidats de chaque type d’examen.

La notation en centile est une façon de classer sa performance par rapport à la performance des autres. Par exemple, si vous vous êtes classé dans le 60e centile à un test, cela signifie que vous avez obtenu un score supérieur à 60 % des candidats.

Le tableau suivant répertorie les résultats que nous avons visualisés dans le graphique.

Catégorie Examen GPT-4
Centile
GPT-3.5
Centile
Loi Examen uniforme du barreau 90 dix
Loi LSAT 88 40
ASSIS Lecture et écriture fondées sur des preuves 93 87
ASSIS Mathématiques 89 70
Examen du dossier d’études supérieures (GRE) Quantitatif 80 25
Examen du dossier d’études supérieures (GRE) Verbal 99 63
Examen du dossier d’études supérieures (GRE) En écrivant 54 54
Placement avancé (AP) La biologie 85 62
Placement avancé (AP) Calcul 43 0
Placement avancé (AP) Chimie 71 22
Placement avancé (AP) Physique 2 66 30
Placement avancé (AP) Psychologie 83 83
Placement avancé (AP) Statistiques 85 40
Placement avancé (AP) Langue anglaise 14 14
Placement avancé (AP) Littérature anglaise 8 8
Programmation compétitive Évaluation des forces de code <5 <5

Les scores indiqués ci-dessus concernent GPT-4 avec les entrées visuelles activées. Veuillez consulter le rapport technique d’OpenAI pour des résultats plus complets.

Comme nous pouvons le voir, GPT-4 (sorti en mars 2023) est beaucoup plus performant que GPT-3.5 (sorti en mars 2022) dans la majorité de ces examens. Il n’a cependant pas pu s’améliorer en AP Anglais et en programmation compétitive.

En ce qui concerne l’anglais AP (et d’autres examens où des réponses écrites étaient requises), les soumissions de ChatGPT ont été notées par « 1-2 sous-traitants tiers qualifiés ayant une expérience de travail pertinente notant ces essais ». Bien que ChatGPT soit certainement capable de produire des essais adéquats, il a peut-être eu du mal à comprendre les invites de l’examen.

Pour la programmation compétitive, GPT a tenté 10 concours Codeforces 100 fois chacun. Codeforces organise des concours de programmation compétitifs où les participants doivent résoudre des problèmes complexes. La cote Codeforces moyenne de GPT-4 est de 392 (en dessous du 5e centile), tandis que sa plus haute sur un seul concours était d’environ 1 300. En faisant référence à la page d’évaluation de Codeforces, l’utilisateur qui obtient le meilleur score est jiangly de Chine avec une note de 3 841.

Qu’est-ce qui a changé avec GPT-4 ?

Voici quelques domaines dans lesquels GPT-4 a amélioré l’expérience utilisateur par rapport à GPT-3.5.

Accès Internet et plugins

Un facteur limitant avec GPT-3.5 était qu’il n’avait pas accès à Internet et n’était formé sur les données que jusqu’en juin 2021.

Avec GPT-4, les utilisateurs auront accès à divers plugins qui permettent à ChatGPT d’accéder à Internet, de fournir des réponses plus à jour et d’effectuer un plus large éventail de tâches. Cela inclut des plugins tiers de services tels qu’Expedia qui permettront à ChatGPT de réserver des vacances entières pour vous.

Entrées visuelles

Alors que GPT-3.5 ne pouvait accepter que des entrées de texte, GPT-4 a également la capacité d’analyser des images. Les utilisateurs pourront demander à ChatGPT de décrire une photo, d’analyser un graphique ou même d’expliquer un mème.

Plus grande longueur de contexte

Enfin, GPT-4 est capable de gérer des quantités de texte beaucoup plus importantes et de maintenir les conversations plus longtemps. Pour référence, GPT-3.5 avait une valeur de requête maximale de 4 096 jetons, ce qui équivaut à environ 3 000 mots. GPT-4 a deux variantes, une avec 8 192 jetons (6 000 mots) et une autre avec 32 768 jetons (24 000 mots).

Image promotionnelle d'une dépêche spéciale sur l'IA et l'avenir du travail avec un robot humanoïde entouré du logo ChatGPT, du logo Midjourney, du logo Bing et du logo Google Bard Vous souhaitez en savoir plus sur l’impact de l’intelligence artificielle sur le monde du travail ? Les membres VC+ ont accès à cette dépêche spéciale ainsi qu’à l’ensemble de nos archives de contenu VC+. En savoir plus.

Laisser un commentaire