Les Fondamentaux de l'IA

Tu as sûrement entendu parler d’Intelligence Artificielle partout ces derniers temps. À la télé, sur les réseaux sociaux, au bureau… Tout le monde en parle, mais combien de personnes savent vraiment ce que c’est ?
Bonne nouvelle : à la fin de ce cours, toi, tu sauras. Et tu pourras même l’expliquer à ta grand-mère (enfin, si elle est curieuse 😄).
Qu’est-ce que l’IA ?
Section intitulée « Qu’est-ce que l’IA ? »Au lieu de dire à l’ordinateur exactement quoi faire dans chaque cas, on lui donne les moyens d’apprendre et de s’adapter. C’est un changement de philosophie radical !
Qu’est-ce que le Machine Learning ?
Section intitulée « Qu’est-ce que le Machine Learning ? »Une analogie pour bien comprendre
Section intitulée « Une analogie pour bien comprendre »Imagine que tu veuilles apprendre à un enfant à reconnaître un chat. Tu as deux options :
Option 1 : La méthode classique (programmation traditionnelle)
Tu lui donnes une liste de règles :
- “Un chat a 4 pattes”
- “Un chat a des moustaches”
- “Un chat fait miaou”
- “Un chat a une queue”
- …
Le problème ? Un chien aussi a 4 pattes et une queue. Et certains chats n’ont pas de queue (comme le Manx). Ta liste de règles va vite devenir un cauchemar à maintenir !
Option 2 : La méthode Machine Learning
Tu montres à l’enfant des milliers de photos de chats en lui disant “ça, c’est un chat”. À force, son cerveau va naturellement repérer les patterns qui font qu’un chat est un chat.
Le Machine Learning, c’est exactement ça : on montre des tonnes d’exemples à la machine, et elle apprend toute seule à reconnaître les patterns.
Qu’est-ce que le Deep Learning ?
Section intitulée « Qu’est-ce que le Deep Learning ? »Pourquoi “Deep” (Profond) ?
Section intitulée « Pourquoi “Deep” (Profond) ? »Le mot “profond” fait référence au nombre de couches dans le réseau de neurones. Plus il y a de couches, plus le réseau est “profond”, et plus il peut apprendre des choses complexes.
Pense à une usine avec plusieurs étages :
- Étage 1 : On détecte des formes simples (lignes, courbes)
- Étage 2 : On combine ces formes en motifs (yeux, oreilles)
- Étage 3 : On assemble les motifs en concepts (visage de chat)
- Étage 4 : On reconnaît l’objet final (“C’est Félix le chat !”)
Chaque couche apprend quelque chose de plus abstrait que la précédente. C’est cette profondeur qui permet au Deep Learning de comprendre des choses aussi complexes que le langage humain ou la reconnaissance faciale.
Qu’est-ce qu’un LLM ?
Section intitulée « Qu’est-ce qu’un LLM ? »Maintenant qu’on a posé les bases, parlons de ce qui fait le buzz : les LLM (Large Language Models, ou Grands Modèles de Langage).
ChatGPT, Claude, Gemini, Mistral… Tous ces assistants IA que tu utilises peut-être déjà sont des LLM.
Attends… “Prédire le mot suivant” ? C’est tout ?
Section intitulée « Attends… “Prédire le mot suivant” ? C’est tout ? »Eh oui ! Aussi impressionnants qu’ils paraissent, les LLM sont fondamentalement des machines à prédire le mot suivant. C’est leur seule mission dans la vie.
Mais attention, ne sous-estime pas cette tâche apparemment simple. Pour prédire correctement le mot suivant, le modèle doit comprendre :
- La grammaire
- Le contexte
- Les concepts
- Les relations logiques
- Et bien plus encore…
Comment ça marche concrètement ?
Section intitulée « Comment ça marche concrètement ? »

Prenons l’exemple du prompt :
Le chat mange → [Le], [chat], [mange]
Le modèle calcule les probabilités du mot suivant (token) :
| Mot suivant | Probabilité |
|---|---|
| des croquettes | 42% ✅ |
| une souris | 25% |
| du poisson | 15% |
| sa pâtée | 10% |
| une pizza | 0.01% 🍕 |
Le modèle choisit généralement le mot le plus probable (“des croquettes”). Et ensuite ? Il recommence ! Il prend “Le chat mange des croquettes” et prédit le mot suivant. Et ainsi de suite… c’est ce que l’on appelle l’Auto-régression.
La température
Section intitulée « La température »Tu as peut-être entendu parler de la température dans le contexte des LLM. C’est un paramètre qui contrôle le niveau de “prise de risque” du modèle.
| Température | Comportement |
|---|---|
| 0 (basse) | Le modèle choisit toujours le mot le plus probable. Réponses prévisibles et “sûres”. |
| 0.7-0.8 (moyenne) | Un bon équilibre entre créativité et cohérence. |
| 1.0+ (haute) | Le modèle prend des risques, peut choisir des mots moins probables. Plus créatif, mais aussi plus susceptible de partir dans tous les sens ! |
Pour reprendre notre exemple du chat :
- Si la température est à 0, l’IA choisira toujours “des croquettes” (le plus probable).
- Si la température est élevée (ex : 0.8), l’IA prendra des risques et pourra choisir “sa pâtée” ou même “le canapé” pour être plus créative.
Histoire de l’IA
Section intitulée « Histoire de l’IA »

1950 : Des machines qui pensent
Section intitulée « 1950 : Des machines qui pensent »Tout commence avec un génie britannique : Alan Turing.
1956 : La Conférence de Dartmouth
Section intitulée « 1956 : La Conférence de Dartmouth »L’été 1956 marque un tournant historique. À la Conférence de Dartmouth, quatre pionniers (dont John McCarthy et Marvin Minsky) inventent officiellement le terme “Intelligence Artificielle”.
Leur hypothèse de départ était audacieuse :
“Tout aspect de l’apprentissage ou de l’intelligence peut être décrit si précisément qu’une machine peut le simuler.”
1956 - 1974 : Les années dorées
Section intitulée « 1956 - 1974 : Les années dorées »C’est l’euphorie ! Les financements (notamment gouvernementaux) pleuvent, l’optimisme est à son comble. En 1967, Marvin Minsky déclare même :
“Dans une génération… le problème de la création de l’intelligence artificielle sera substantiellement résolu.”
Les chercheurs se concentrent sur des “micro-mondes” : des environnements simplifiés où l’IA peut raisonner sans la complexité du monde réel. C’est l’essor des premiers algorithmes de résolution de problèmes et du Traitement du Langage Naturel (NLP). Trois projets marquent cette époque :
ELIZA (1966) — Le premier chatbot
Section intitulée « ELIZA (1966) — Le premier chatbot »
ELIZA simulait un psychothérapeute en reformulant simplement les phrases de l’utilisateur. Malgré sa simplicité, les gens étaient bluffés et se confiaient à “elle” !
SHRDLU et le Blocks World
Section intitulée « SHRDLU et le Blocks World »
Un programme capable de manipuler des blocs virtuels en comprenant des ordres en langage naturel. “Pose le cube rouge sur le bloc bleu” ? Pas de problème !
Shakey le robot (1972)
Section intitulée « Shakey le robot (1972) »
Le premier robot mobile capable de percevoir son environnement et de planifier ses déplacements. Un ancêtre des robots aspirateurs d’aujourd’hui !
1974 - 1980 : L’hiver de l’IA — La désillusion
Section intitulée « 1974 - 1980 : L’hiver de l’IA — La désillusion »Après l’euphorie, la douche froide. Les financeurs réalisent que les promesses étaient… comment dire… un peu exagérées.
Le Rapport Lighthill (1973) assène le coup de grâce en Grande-Bretagne : les fonds sont coupés.
Pourquoi cet échec ? Trois murs techniques ont stoppé net les recherches :
- Puissance de calcul insuffisante : Les ordinateurs de l’époque étaient tout simplement trop faibles pour les ambitions de l’IA.
- L’explosion combinatoire : Résoudre un problème simple, OK. Mais dès qu’on augmente la complexité, le temps de calcul explose de façon exponentielle.
- Manque de données : Pas de Big Data à l’époque. Comment apprendre sans exemples ?
En 1980, le philosophe John Searle enfonce le clou avec son expérience de pensée de la “Chambre Chinoise” : une machine peut donner les bonnes réponses sans rien comprendre à ce qu’elle dit. Elle maîtrise la syntaxe mais pas la sémantique.
Années 1980 : L’ère des Systèmes Experts
Section intitulée « Années 1980 : L’ère des Systèmes Experts »L’IA sort des laboratoires pour entrer dans les entreprises. C’est la première grande réussite commerciale de la discipline grâce aux Systèmes Experts — des logiciels visant à reproduire le raisonnement d’un spécialiste humain.
Leur fonctionnement repose sur deux piliers :
- La Base de règles (Le Savoir) : Une liste immense d’instructions “Si… Alors…” (Ex : Si le moteur chauffe, alors vérifier le radiateur).
- Le Moteur d’inférence (La Logique) : Le logiciel qui parcourt ces règles pour trouver la solution.
En parallèle, la recherche sur les réseaux de neurones commence discrètement à renaître.
1987 - 1993 : Le deuxième hiver de l’IA — La chute du Hardware
Section intitulée « 1987 - 1993 : Le deuxième hiver de l’IA — La chute du Hardware »La bulle des Systèmes Experts éclate. Le problème ? Ces logiciels tournaient sur des ordinateurs ultra-coûteux et spécialisés (les “Lisp Machines”). Soudain, les PC et les Mac deviennent assez puissants… et beaucoup moins chers.
Nouvel hiver budgétaire. Mais cette fois, quelque chose de crucial se met en place : la démocratisation des ordinateurs personnels. Des millions de machines vont bientôt générer des tonnes de données…
1993 - 2011 : Le triomphe de la Data
Section intitulée « 1993 - 2011 : Le triomphe de la Data »Trois facteurs relancent la machine :
1. La Loi de Moore — La puissance de calcul double tous les 18 mois. Ce qui était impossible hier devient trivial demain.
2. Le Big Data — Internet explose. Le smartphone arrive (2007). On génère des quantités astronomiques de données.
3. L’apprentissage statistique — Changement de philosophie : on arrête d’essayer de coder des règles parfaites. On laisse les algorithmes apprendre des probabilités à partir des données.
L’IA devient enfin une discipline scientifique mature et rigoureuse.
Aujourd’hui : L’ère de l’ubiquité et de l’éthique
Section intitulée « Aujourd’hui : L’ère de l’ubiquité et de l’éthique »L’IA est partout. Dans ton téléphone, tes réseaux sociaux, ta banque, ta voiture…
La question n’est plus “Est-ce que ça marche ?” mais “Est-ce que c’est juste ?”
L’enjeu actuel est la régulation et la création d’une IA éthique et explicable.
Quickstart : L’IA en action
Section intitulée « Quickstart : L’IA en action »Objectif : Observer comment l’IA se “perçoit” et tester sa capacité à structurer une réponse complexe.
Consigne : Rends-toi sur une IA de ton choix (ChatGPT, Claude, Mistral, Gemini…) et entre le prompt suivant :
Agis comme un formateur en IA expliquant les LLM à un apprenant curieux.Structure ta réponse en 4 couches :
1. Auto-description littérale : "Je suis un Grand Modèle de Langage (LLM), ce qui signifie..."2. Analogie : Compare un LLM à une poupée russe de savoir humain compressé (couches de la poupée = couches du modèle, compression = entraînement).3. Auto-dissection : Décris le processus de génération de cette phrase même : Tokenisation → Embeddings → Attention → Prédiction → Décodage4. Métacognition : "Pourquoi cette explication en couches fonctionne-t-elle ? Parce que les LLM apprennent le savoir hiérarchiquement."Sous le capot : Les progrès techniques
Section intitulée « Sous le capot : Les progrès techniques »Les LLM sont de plus en plus performants. Ce n’est pas de la magie, mais une convergence de plusieurs avancées mathématiques et techniques.
1. La vectorisation du langage — Embeddings
Section intitulée « 1. La vectorisation du langage — Embeddings »Premier défi : comment faire comprendre le langage humain à une machine qui ne comprend que des chiffres ?
La réponse : transformer les mots en vecteurs (des listes de nombres).

Grâce à des techniques comme Word2Vec, chaque mot devient un point dans un espace mathématique à plusieurs dimensions.

2. Les réseaux neuronaux profonds (Deep Learning)
Section intitulée « 2. Les réseaux neuronaux profonds (Deep Learning) »Une fois les mots transformés en chiffres, ils passent dans le “cerveau” du modèle : un réseau de neurones artificiels.

Chaque neurone fait deux choses :
- Une transformation affine (combinaison linéaire pondérée des entrées)
- Une fonction d’activation qui introduit de la non-linéarité (comme ReLU ou Sigmoïde)
C’est cette non-linéarité qui permet d’apprendre des choses complexes. Sans elle, empiler des couches ne servirait à rien !
3. L’attention et les Transformers — La révolution de 2017
Section intitulée « 3. L’attention et les Transformers — La révolution de 2017 »
4. RLHF — Reinforcement Learning from Human Feedback
Section intitulée « 4. RLHF — Reinforcement Learning from Human Feedback »À ce stade, le modèle a été entraîné sur tout Internet. Il sait parler, mais il peut être impoli, raconter n’importe quoi, ou donner des conseils dangereux.
Il faut l’éduquer. C’est le rôle du RLHF.

Comment ça marche ?
-
Le modèle génère plusieurs réponses possibles
-
Des humains classent ces réponses (de la meilleure à la pire)
-
Le modèle ajuste ses paramètres pour maximiser la “récompense” (la satisfaction humaine)
C’est cette étape qui transforme un simple “compléteur de texte” en un assistant conversationnel utile comme ChatGPT ou Claude.
Panorama actuel des modèles (Juin 2025)
Section intitulée « Panorama actuel des modèles (Juin 2025) »
Quelques modèles et entreprises
Section intitulée « Quelques modèles et entreprises »
| Modèle | Entreprise | Type |
|---|---|---|
| DeepSeek | DeepSeek | Open Source 🔓 |
| ChatGPT (GPT-4, o1) | OpenAI | Propriétaire 🔒 |
| Llama | Meta | Open Source 🔓 |
| Claude | Anthropic | Propriétaire 🔒 |
| Qwen | Alibaba | Open Weight 🔓 |
| Codestral | Mistral | Open Source 🔓 |
| Gemini | Propriétaire 🔒 | |
| Gemma | Open Weight 🔓 |
Où suivre les benchmarks ?
Section intitulée « Où suivre les benchmarks ? »Les performances des modèles évoluent très vite ! Voici quelques ressources pour rester à jour :
- Vellum LLM Leaderboard
- Artificial Analysis
- BigCode Bench
- LLM Stats
- Aider Leaderboards (pour le code)
Comment choisir son modèle ?
Section intitulée « Comment choisir son modèle ? »Face à cette jungle de modèles, comment faire le bon choix ? Voici les critères à considérer :
| Critère | Questions à se poser |
|---|---|
| Efficacité | Le modèle est-il bon pour MA tâche ? (code, rédaction, analyse…) |
| Coûts | Quel est le prix par token ? Mon budget le permet-il ? |
| Open Source | Ai-je besoin d’accéder au code ? De le modifier ? |
| Exécution locale | Puis-je le faire tourner sur mes serveurs ? |
| Taille | Ai-je le matériel pour faire tourner un gros modèle ? |
| Confidentialité | Mes données sont-elles sensibles ? |
| Sécurité | Le modèle a-t-il des garde-fous suffisants ? |
| Performance | Vitesse de réponse acceptable ? |
QCM : Teste tes connaissances ! 🧠
Section intitulée « QCM : Teste tes connaissances ! 🧠 »Question 1 : Quelle est la mission principale d’un LLM ?
- A) Stocker des connaissances comme une encyclopédie
- B) Prédire le mot suivant le plus probable
- C) Comprendre le sens profond des textes
- D) Remplacer les humains
Question 2 : Qu’est-ce que l’hallucination dans le contexte des LLM ?
- A) Un bug logiciel
- B) Le fait de générer des informations fausses avec assurance
- C) Un problème de connexion internet
- D) Une fonctionnalité désactivée
Question 3 : Que permet le mécanisme d’Attention ?
- A) De rendre l’IA plus polie
- B) De traiter tous les mots d’une phrase simultanément
- C) D’accélérer les calculs
- D) De réduire la consommation électrique
Question 4 : À quoi sert le RLHF ?
- A) À rendre le modèle plus rapide
- B) À aligner le comportement du modèle sur les attentes humaines
- C) À réduire la taille du modèle
- D) À traduire le modèle en français
📖 Voir les réponses
- B — Prédire le mot suivant le plus probable
- B — Le fait de générer des informations fausses avec assurance
- B — De traiter tous les mots d’une phrase simultanément
- B — À aligner le comportement du modèle sur les attentes humaines