Les Fondamentaux de l'IA

17 min de lecture

Infographie IA / Machine Learning / Data Science par Jen Looper de Microsoft

Tu as sûrement entendu parler d’Intelligence Artificielle partout ces derniers temps. À la télé, sur les réseaux sociaux, au bureau… Tout le monde en parle, mais combien de personnes savent vraiment ce que c’est ?

Bonne nouvelle : à la fin de ce cours, toi, tu sauras. Et tu pourras même l’expliquer à ta grand-mère (enfin, si elle est curieuse 😄).

Qu’est-ce que l’IA ?

Au lieu de dire à l’ordinateur exactement quoi faire dans chaque cas, on lui donne les moyens d’apprendre et de s’adapter. C’est un changement de philosophie radical !

Qu’est-ce que le Machine Learning ?

Une analogie pour bien comprendre

Imagine que tu veuilles apprendre à un enfant à reconnaître un chat. Tu as deux options :

Option 1 : La méthode classique (programmation traditionnelle)

Tu lui donnes une liste de règles :

“Un chat a 4 pattes”
“Un chat a des moustaches”
“Un chat fait miaou”
“Un chat a une queue”
…

Le problème ? Un chien aussi a 4 pattes et une queue. Et certains chats n’ont pas de queue (comme le Manx). Ta liste de règles va vite devenir un cauchemar à maintenir !

Option 2 : La méthode Machine Learning

Tu montres à l’enfant des milliers de photos de chats en lui disant “ça, c’est un chat”. À force, son cerveau va naturellement repérer les patterns qui font qu’un chat est un chat.

Le Machine Learning, c’est exactement ça : on montre des tonnes d’exemples à la machine, et elle apprend toute seule à reconnaître les patterns.

Qu’est-ce que le Deep Learning ?

Pourquoi “Deep” (Profond) ?

Le mot “profond” fait référence au nombre de couches dans le réseau de neurones. Plus il y a de couches, plus le réseau est “profond”, et plus il peut apprendre des choses complexes.

Pense à une usine avec plusieurs étages :

Étage 1 : On détecte des formes simples (lignes, courbes)
Étage 2 : On combine ces formes en motifs (yeux, oreilles)
Étage 3 : On assemble les motifs en concepts (visage de chat)
Étage 4 : On reconnaît l’objet final (“C’est Félix le chat !”)

Chaque couche apprend quelque chose de plus abstrait que la précédente. C’est cette profondeur qui permet au Deep Learning de comprendre des choses aussi complexes que le langage humain ou la reconnaissance faciale.

Qu’est-ce qu’un LLM ?

Maintenant qu’on a posé les bases, parlons de ce qui fait le buzz : les LLM (Large Language Models, ou Grands Modèles de Langage).

ChatGPT, Claude, Gemini, Mistral… Tous ces assistants IA que tu utilises peut-être déjà sont des LLM.

Attends… “Prédire le mot suivant” ? C’est tout ?

Eh oui ! Aussi impressionnants qu’ils paraissent, les LLM sont fondamentalement des machines à prédire le mot suivant. C’est leur seule mission dans la vie.

Mais attention, ne sous-estime pas cette tâche apparemment simple. Pour prédire correctement le mot suivant, le modèle doit comprendre :

La grammaire
Le contexte
Les concepts
Les relations logiques
Et bien plus encore…

Comment ça marche concrètement ?

Illustration de la prédiction de tokens par un LLM

Illustration de la tokenisation

Prenons l’exemple du prompt :

Le chat mange → [Le], [chat], [mange]

Le modèle calcule les probabilités du mot suivant (token) :

Mot suivant	Probabilité
des croquettes	42% ✅
une souris	25%
du poisson	15%
sa pâtée	10%
une pizza	0.01% 🍕

Le modèle choisit généralement le mot le plus probable (“des croquettes”). Et ensuite ? Il recommence ! Il prend “Le chat mange des croquettes” et prédit le mot suivant. Et ainsi de suite… c’est ce que l’on appelle l’Auto-régression.

La température

Tu as peut-être entendu parler de la température dans le contexte des LLM. C’est un paramètre qui contrôle le niveau de “prise de risque” du modèle.

Température	Comportement
0 (basse)	Le modèle choisit toujours le mot le plus probable. Réponses prévisibles et “sûres”.
0.7-0.8 (moyenne)	Un bon équilibre entre créativité et cohérence.
1.0+ (haute)	Le modèle prend des risques, peut choisir des mots moins probables. Plus créatif, mais aussi plus susceptible de partir dans tous les sens !

Pour reprendre notre exemple du chat :

Si la température est à 0, l’IA choisira toujours “des croquettes” (le plus probable).
Si la température est élevée (ex : 0.8), l’IA prendra des risques et pourra choisir “sa pâtée” ou même “le canapé” pour être plus créative.

Histoire de l’IA

Histoire de l'IA — partie 1

Histoire de l'IA — partie 2

1950 : Des machines qui pensent

Tout commence avec un génie britannique : Alan Turing.

1956 : La Conférence de Dartmouth

L’été 1956 marque un tournant historique. À la Conférence de Dartmouth, quatre pionniers (dont John McCarthy et Marvin Minsky) inventent officiellement le terme “Intelligence Artificielle”.

Leur hypothèse de départ était audacieuse :

“Tout aspect de l’apprentissage ou de l’intelligence peut être décrit si précisément qu’une machine peut le simuler.”

1956 - 1974 : Les années dorées

C’est l’euphorie ! Les financements (notamment gouvernementaux) pleuvent, l’optimisme est à son comble. En 1967, Marvin Minsky déclare même :

“Dans une génération… le problème de la création de l’intelligence artificielle sera substantiellement résolu.”

Les chercheurs se concentrent sur des “micro-mondes” : des environnements simplifiés où l’IA peut raisonner sans la complexité du monde réel. C’est l’essor des premiers algorithmes de résolution de problèmes et du Traitement du Langage Naturel (NLP). Trois projets marquent cette époque :

ELIZA (1966) — Le premier chatbot

Interface d'ELIZA, premier chatbot de l'histoire

ELIZA simulait un psychothérapeute en reformulant simplement les phrases de l’utilisateur. Malgré sa simplicité, les gens étaient bluffés et se confiaient à “elle” !

SHRDLU et le Blocks World

Démonstration de SHRDLU et le Blocks World

Un programme capable de manipuler des blocs virtuels en comprenant des ordres en langage naturel. “Pose le cube rouge sur le bloc bleu” ? Pas de problème !

Shakey le robot (1972)

Shakey, premier robot mobile autonome

Le premier robot mobile capable de percevoir son environnement et de planifier ses déplacements. Un ancêtre des robots aspirateurs d’aujourd’hui !

1974 - 1980 : L’hiver de l’IA — La désillusion

Après l’euphorie, la douche froide. Les financeurs réalisent que les promesses étaient… comment dire… un peu exagérées.

Le Rapport Lighthill (1973) assène le coup de grâce en Grande-Bretagne : les fonds sont coupés.

Pourquoi cet échec ? Trois murs techniques ont stoppé net les recherches :

Puissance de calcul insuffisante : Les ordinateurs de l’époque étaient tout simplement trop faibles pour les ambitions de l’IA.
L’explosion combinatoire : Résoudre un problème simple, OK. Mais dès qu’on augmente la complexité, le temps de calcul explose de façon exponentielle.
Manque de données : Pas de Big Data à l’époque. Comment apprendre sans exemples ?

En 1980, le philosophe John Searle enfonce le clou avec son expérience de pensée de la “Chambre Chinoise” : une machine peut donner les bonnes réponses sans rien comprendre à ce qu’elle dit. Elle maîtrise la syntaxe mais pas la sémantique.

Années 1980 : L’ère des Systèmes Experts

L’IA sort des laboratoires pour entrer dans les entreprises. C’est la première grande réussite commerciale de la discipline grâce aux Systèmes Experts — des logiciels visant à reproduire le raisonnement d’un spécialiste humain.

Leur fonctionnement repose sur deux piliers :

La Base de règles (Le Savoir) : Une liste immense d’instructions “Si… Alors…” (Ex : Si le moteur chauffe, alors vérifier le radiateur).
Le Moteur d’inférence (La Logique) : Le logiciel qui parcourt ces règles pour trouver la solution.

En parallèle, la recherche sur les réseaux de neurones commence discrètement à renaître.

1987 - 1993 : Le deuxième hiver de l’IA — La chute du Hardware

La bulle des Systèmes Experts éclate. Le problème ? Ces logiciels tournaient sur des ordinateurs ultra-coûteux et spécialisés (les “Lisp Machines”). Soudain, les PC et les Mac deviennent assez puissants… et beaucoup moins chers.

Nouvel hiver budgétaire. Mais cette fois, quelque chose de crucial se met en place : la démocratisation des ordinateurs personnels. Des millions de machines vont bientôt générer des tonnes de données…

1993 - 2011 : Le triomphe de la Data

Trois facteurs relancent la machine :

1. La Loi de Moore — La puissance de calcul double tous les 18 mois. Ce qui était impossible hier devient trivial demain.

2. Le Big Data — Internet explose. Le smartphone arrive (2007). On génère des quantités astronomiques de données.

3. L’apprentissage statistique — Changement de philosophie : on arrête d’essayer de coder des règles parfaites. On laisse les algorithmes apprendre des probabilités à partir des données.

L’IA devient enfin une discipline scientifique mature et rigoureuse.

Aujourd’hui : L’ère de l’ubiquité et de l’éthique

L’IA est partout. Dans ton téléphone, tes réseaux sociaux, ta banque, ta voiture…

La question n’est plus “Est-ce que ça marche ?” mais “Est-ce que c’est juste ?”

L’enjeu actuel est la régulation et la création d’une IA éthique et explicable.

Quickstart : L’IA en action

Objectif : Observer comment l’IA se “perçoit” et tester sa capacité à structurer une réponse complexe.

Consigne : Rends-toi sur une IA de ton choix (ChatGPT, Claude, Mistral, Gemini…) et entre le prompt suivant :

Agis comme un formateur en IA expliquant les LLM à un apprenant curieux.
Structure ta réponse en 4 couches :

1. Auto-description littérale : "Je suis un Grand Modèle de Langage (LLM), ce qui signifie..."
2. Analogie : Compare un LLM à une poupée russe de savoir humain compressé
   (couches de la poupée = couches du modèle, compression = entraînement).
3. Auto-dissection : Décris le processus de génération de cette phrase même :
   Tokenisation → Embeddings → Attention → Prédiction → Décodage
4. Métacognition : "Pourquoi cette explication en couches fonctionne-t-elle ?
   Parce que les LLM apprennent le savoir hiérarchiquement."

Sous le capot : Les progrès techniques

Les LLM sont de plus en plus performants. Ce n’est pas de la magie, mais une convergence de plusieurs avancées mathématiques et techniques.

1. La vectorisation du langage — Embeddings

Premier défi : comment faire comprendre le langage humain à une machine qui ne comprend que des chiffres ?

La réponse : transformer les mots en vecteurs (des listes de nombres).

Word2Vec — représentation générale

Grâce à des techniques comme Word2Vec, chaque mot devient un point dans un espace mathématique à plusieurs dimensions.

Word2Vec — vecteurs de mots

2. Les réseaux neuronaux profonds (Deep Learning)

Une fois les mots transformés en chiffres, ils passent dans le “cerveau” du modèle : un réseau de neurones artificiels.

Évolution de la taille des réseaux de neurones

Chaque neurone fait deux choses :

Une transformation affine (combinaison linéaire pondérée des entrées)
Une fonction d’activation qui introduit de la non-linéarité (comme ReLU ou Sigmoïde)

C’est cette non-linéarité qui permet d’apprendre des choses complexes. Sans elle, empiler des couches ne servirait à rien !

3. L’attention et les Transformers — La révolution de 2017

Schéma d'architecture d'un LLM (Transformer)

4. RLHF — Reinforcement Learning from Human Feedback

À ce stade, le modèle a été entraîné sur tout Internet. Il sait parler, mais il peut être impoli, raconter n’importe quoi, ou donner des conseils dangereux.

Il faut l’éduquer. C’est le rôle du RLHF.

Fine-tuning d'un LLM avec RLHF

Comment ça marche ?

Le modèle génère plusieurs réponses possibles
Des humains classent ces réponses (de la meilleure à la pire)
Le modèle ajuste ses paramètres pour maximiser la “récompense” (la satisfaction humaine)

C’est cette étape qui transforme un simple “compléteur de texte” en un assistant conversationnel utile comme ChatGPT ou Claude.

Panorama actuel des modèles (Juin 2025)

Benchmark LLM — Juin 2025

Quelques modèles et entreprises

Benchmark LLM — Janvier 2025

Modèle	Entreprise	Type
DeepSeek	DeepSeek	Open Source 🔓
ChatGPT (GPT-4, o1)	OpenAI	Propriétaire 🔒
Llama	Meta	Open Source 🔓
Claude	Anthropic	Propriétaire 🔒
Qwen	Alibaba	Open Weight 🔓
Codestral	Mistral	Open Source 🔓
Gemini	Google	Propriétaire 🔒
Gemma	Google	Open Weight 🔓

Où suivre les benchmarks ?

Les performances des modèles évoluent très vite ! Voici quelques ressources pour rester à jour :

Comment choisir son modèle ?

Face à cette jungle de modèles, comment faire le bon choix ? Voici les critères à considérer :

Critère	Questions à se poser
Efficacité	Le modèle est-il bon pour MA tâche ? (code, rédaction, analyse…)
Coûts	Quel est le prix par token ? Mon budget le permet-il ?
Open Source	Ai-je besoin d’accéder au code ? De le modifier ?
Exécution locale	Puis-je le faire tourner sur mes serveurs ?
Taille	Ai-je le matériel pour faire tourner un gros modèle ?
Confidentialité	Mes données sont-elles sensibles ?
Sécurité	Le modèle a-t-il des garde-fous suffisants ?
Performance	Vitesse de réponse acceptable ?

QCM : Teste tes connaissances ! 🧠

Question 1 : Quelle est la mission principale d’un LLM ?

A) Stocker des connaissances comme une encyclopédie
B) Prédire le mot suivant le plus probable
C) Comprendre le sens profond des textes
D) Remplacer les humains

Question 2 : Qu’est-ce que l’hallucination dans le contexte des LLM ?

A) Un bug logiciel
B) Le fait de générer des informations fausses avec assurance
C) Un problème de connexion internet
D) Une fonctionnalité désactivée

Question 3 : Que permet le mécanisme d’Attention ?

A) De rendre l’IA plus polie
B) De traiter tous les mots d’une phrase simultanément
C) D’accélérer les calculs
D) De réduire la consommation électrique

Question 4 : À quoi sert le RLHF ?

A) À rendre le modèle plus rapide
B) À aligner le comportement du modèle sur les attentes humaines
C) À réduire la taille du modèle
D) À traduire le modèle en français

📖 Voir les réponses

B — Prédire le mot suivant le plus probable
B — Le fait de générer des informations fausses avec assurance
B — De traiter tous les mots d’une phrase simultanément
B — À aligner le comportement du modèle sur les attentes humaines