Aller au contenu

Les Fondamentaux de l'IA

17 min de lecture

Infographie IA / Machine Learning / Data Science par Jen Looper de Microsoft

Tu as sûrement entendu parler d’Intelligence Artificielle partout ces derniers temps. À la télé, sur les réseaux sociaux, au bureau… Tout le monde en parle, mais combien de personnes savent vraiment ce que c’est ?

Bonne nouvelle : à la fin de ce cours, toi, tu sauras. Et tu pourras même l’expliquer à ta grand-mère (enfin, si elle est curieuse 😄).

Au lieu de dire à l’ordinateur exactement quoi faire dans chaque cas, on lui donne les moyens d’apprendre et de s’adapter. C’est un changement de philosophie radical !

Imagine que tu veuilles apprendre à un enfant à reconnaître un chat. Tu as deux options :

Option 1 : La méthode classique (programmation traditionnelle)

Tu lui donnes une liste de règles :

  • “Un chat a 4 pattes”
  • “Un chat a des moustaches”
  • “Un chat fait miaou”
  • “Un chat a une queue”

Le problème ? Un chien aussi a 4 pattes et une queue. Et certains chats n’ont pas de queue (comme le Manx). Ta liste de règles va vite devenir un cauchemar à maintenir !

Option 2 : La méthode Machine Learning

Tu montres à l’enfant des milliers de photos de chats en lui disant “ça, c’est un chat”. À force, son cerveau va naturellement repérer les patterns qui font qu’un chat est un chat.

Le Machine Learning, c’est exactement ça : on montre des tonnes d’exemples à la machine, et elle apprend toute seule à reconnaître les patterns.

Le mot “profond” fait référence au nombre de couches dans le réseau de neurones. Plus il y a de couches, plus le réseau est “profond”, et plus il peut apprendre des choses complexes.

Pense à une usine avec plusieurs étages :

  • Étage 1 : On détecte des formes simples (lignes, courbes)
  • Étage 2 : On combine ces formes en motifs (yeux, oreilles)
  • Étage 3 : On assemble les motifs en concepts (visage de chat)
  • Étage 4 : On reconnaît l’objet final (“C’est Félix le chat !”)

Chaque couche apprend quelque chose de plus abstrait que la précédente. C’est cette profondeur qui permet au Deep Learning de comprendre des choses aussi complexes que le langage humain ou la reconnaissance faciale.

Maintenant qu’on a posé les bases, parlons de ce qui fait le buzz : les LLM (Large Language Models, ou Grands Modèles de Langage).

ChatGPT, Claude, Gemini, Mistral… Tous ces assistants IA que tu utilises peut-être déjà sont des LLM.

Attends… “Prédire le mot suivant” ? C’est tout ?

Section intitulée « Attends… “Prédire le mot suivant” ? C’est tout ? »

Eh oui ! Aussi impressionnants qu’ils paraissent, les LLM sont fondamentalement des machines à prédire le mot suivant. C’est leur seule mission dans la vie.

Mais attention, ne sous-estime pas cette tâche apparemment simple. Pour prédire correctement le mot suivant, le modèle doit comprendre :

  • La grammaire
  • Le contexte
  • Les concepts
  • Les relations logiques
  • Et bien plus encore…

Illustration de la prédiction de tokens par un LLM

Illustration de la tokenisation

Prenons l’exemple du prompt :

Le chat mange → [Le], [chat], [mange]

Le modèle calcule les probabilités du mot suivant (token) :

Mot suivantProbabilité
des croquettes42% ✅
une souris25%
du poisson15%
sa pâtée10%
une pizza0.01% 🍕

Le modèle choisit généralement le mot le plus probable (“des croquettes”). Et ensuite ? Il recommence ! Il prend “Le chat mange des croquettes” et prédit le mot suivant. Et ainsi de suite… c’est ce que l’on appelle l’Auto-régression.

Tu as peut-être entendu parler de la température dans le contexte des LLM. C’est un paramètre qui contrôle le niveau de “prise de risque” du modèle.

TempératureComportement
0 (basse)Le modèle choisit toujours le mot le plus probable. Réponses prévisibles et “sûres”.
0.7-0.8 (moyenne)Un bon équilibre entre créativité et cohérence.
1.0+ (haute)Le modèle prend des risques, peut choisir des mots moins probables. Plus créatif, mais aussi plus susceptible de partir dans tous les sens !

Pour reprendre notre exemple du chat :

  • Si la température est à 0, l’IA choisira toujours “des croquettes” (le plus probable).
  • Si la température est élevée (ex : 0.8), l’IA prendra des risques et pourra choisir “sa pâtée” ou même “le canapé” pour être plus créative.

Histoire de l'IA — partie 1

Histoire de l'IA — partie 2

Tout commence avec un génie britannique : Alan Turing.

L’été 1956 marque un tournant historique. À la Conférence de Dartmouth, quatre pionniers (dont John McCarthy et Marvin Minsky) inventent officiellement le terme “Intelligence Artificielle”.

Leur hypothèse de départ était audacieuse :

“Tout aspect de l’apprentissage ou de l’intelligence peut être décrit si précisément qu’une machine peut le simuler.”

C’est l’euphorie ! Les financements (notamment gouvernementaux) pleuvent, l’optimisme est à son comble. En 1967, Marvin Minsky déclare même :

“Dans une génération… le problème de la création de l’intelligence artificielle sera substantiellement résolu.”

Les chercheurs se concentrent sur des “micro-mondes” : des environnements simplifiés où l’IA peut raisonner sans la complexité du monde réel. C’est l’essor des premiers algorithmes de résolution de problèmes et du Traitement du Langage Naturel (NLP). Trois projets marquent cette époque :

Interface d'ELIZA, premier chatbot de l'histoire

ELIZA simulait un psychothérapeute en reformulant simplement les phrases de l’utilisateur. Malgré sa simplicité, les gens étaient bluffés et se confiaient à “elle” !

Démonstration de SHRDLU et le Blocks World

Un programme capable de manipuler des blocs virtuels en comprenant des ordres en langage naturel. “Pose le cube rouge sur le bloc bleu” ? Pas de problème !

Shakey, premier robot mobile autonome

Le premier robot mobile capable de percevoir son environnement et de planifier ses déplacements. Un ancêtre des robots aspirateurs d’aujourd’hui !

1974 - 1980 : L’hiver de l’IA — La désillusion

Section intitulée « 1974 - 1980 : L’hiver de l’IA — La désillusion »

Après l’euphorie, la douche froide. Les financeurs réalisent que les promesses étaient… comment dire… un peu exagérées.

Le Rapport Lighthill (1973) assène le coup de grâce en Grande-Bretagne : les fonds sont coupés.

Pourquoi cet échec ? Trois murs techniques ont stoppé net les recherches :

  1. Puissance de calcul insuffisante : Les ordinateurs de l’époque étaient tout simplement trop faibles pour les ambitions de l’IA.
  2. L’explosion combinatoire : Résoudre un problème simple, OK. Mais dès qu’on augmente la complexité, le temps de calcul explose de façon exponentielle.
  3. Manque de données : Pas de Big Data à l’époque. Comment apprendre sans exemples ?

En 1980, le philosophe John Searle enfonce le clou avec son expérience de pensée de la “Chambre Chinoise” : une machine peut donner les bonnes réponses sans rien comprendre à ce qu’elle dit. Elle maîtrise la syntaxe mais pas la sémantique.

L’IA sort des laboratoires pour entrer dans les entreprises. C’est la première grande réussite commerciale de la discipline grâce aux Systèmes Experts — des logiciels visant à reproduire le raisonnement d’un spécialiste humain.

Leur fonctionnement repose sur deux piliers :

  • La Base de règles (Le Savoir) : Une liste immense d’instructions “Si… Alors…” (Ex : Si le moteur chauffe, alors vérifier le radiateur).
  • Le Moteur d’inférence (La Logique) : Le logiciel qui parcourt ces règles pour trouver la solution.

En parallèle, la recherche sur les réseaux de neurones commence discrètement à renaître.

1987 - 1993 : Le deuxième hiver de l’IA — La chute du Hardware

Section intitulée « 1987 - 1993 : Le deuxième hiver de l’IA — La chute du Hardware »

La bulle des Systèmes Experts éclate. Le problème ? Ces logiciels tournaient sur des ordinateurs ultra-coûteux et spécialisés (les “Lisp Machines”). Soudain, les PC et les Mac deviennent assez puissants… et beaucoup moins chers.

Nouvel hiver budgétaire. Mais cette fois, quelque chose de crucial se met en place : la démocratisation des ordinateurs personnels. Des millions de machines vont bientôt générer des tonnes de données…

Trois facteurs relancent la machine :

1. La Loi de Moore — La puissance de calcul double tous les 18 mois. Ce qui était impossible hier devient trivial demain.

2. Le Big Data — Internet explose. Le smartphone arrive (2007). On génère des quantités astronomiques de données.

3. L’apprentissage statistique — Changement de philosophie : on arrête d’essayer de coder des règles parfaites. On laisse les algorithmes apprendre des probabilités à partir des données.

L’IA devient enfin une discipline scientifique mature et rigoureuse.

Aujourd’hui : L’ère de l’ubiquité et de l’éthique

Section intitulée « Aujourd’hui : L’ère de l’ubiquité et de l’éthique »

L’IA est partout. Dans ton téléphone, tes réseaux sociaux, ta banque, ta voiture…

La question n’est plus “Est-ce que ça marche ?” mais “Est-ce que c’est juste ?”

L’enjeu actuel est la régulation et la création d’une IA éthique et explicable.

Objectif : Observer comment l’IA se “perçoit” et tester sa capacité à structurer une réponse complexe.

Consigne : Rends-toi sur une IA de ton choix (ChatGPT, Claude, Mistral, Gemini…) et entre le prompt suivant :

Agis comme un formateur en IA expliquant les LLM à un apprenant curieux.
Structure ta réponse en 4 couches :
1. Auto-description littérale : "Je suis un Grand Modèle de Langage (LLM), ce qui signifie..."
2. Analogie : Compare un LLM à une poupée russe de savoir humain compressé
(couches de la poupée = couches du modèle, compression = entraînement).
3. Auto-dissection : Décris le processus de génération de cette phrase même :
Tokenisation → Embeddings → Attention → Prédiction → Décodage
4. Métacognition : "Pourquoi cette explication en couches fonctionne-t-elle ?
Parce que les LLM apprennent le savoir hiérarchiquement."

Les LLM sont de plus en plus performants. Ce n’est pas de la magie, mais une convergence de plusieurs avancées mathématiques et techniques.

Premier défi : comment faire comprendre le langage humain à une machine qui ne comprend que des chiffres ?

La réponse : transformer les mots en vecteurs (des listes de nombres).

Word2Vec — représentation générale

Grâce à des techniques comme Word2Vec, chaque mot devient un point dans un espace mathématique à plusieurs dimensions.

Word2Vec — vecteurs de mots

2. Les réseaux neuronaux profonds (Deep Learning)

Section intitulée « 2. Les réseaux neuronaux profonds (Deep Learning) »

Une fois les mots transformés en chiffres, ils passent dans le “cerveau” du modèle : un réseau de neurones artificiels.

Évolution de la taille des réseaux de neurones

Chaque neurone fait deux choses :

  1. Une transformation affine (combinaison linéaire pondérée des entrées)
  2. Une fonction d’activation qui introduit de la non-linéarité (comme ReLU ou Sigmoïde)

C’est cette non-linéarité qui permet d’apprendre des choses complexes. Sans elle, empiler des couches ne servirait à rien !

3. L’attention et les Transformers — La révolution de 2017

Section intitulée « 3. L’attention et les Transformers — La révolution de 2017 »

Schéma d'architecture d'un LLM (Transformer)

4. RLHF — Reinforcement Learning from Human Feedback

Section intitulée « 4. RLHF — Reinforcement Learning from Human Feedback »

À ce stade, le modèle a été entraîné sur tout Internet. Il sait parler, mais il peut être impoli, raconter n’importe quoi, ou donner des conseils dangereux.

Il faut l’éduquer. C’est le rôle du RLHF.

Fine-tuning d'un LLM avec RLHF

Comment ça marche ?

  1. Le modèle génère plusieurs réponses possibles

  2. Des humains classent ces réponses (de la meilleure à la pire)

  3. Le modèle ajuste ses paramètres pour maximiser la “récompense” (la satisfaction humaine)

C’est cette étape qui transforme un simple “compléteur de texte” en un assistant conversationnel utile comme ChatGPT ou Claude.

Benchmark LLM — Juin 2025

Benchmark LLM — Janvier 2025

ModèleEntrepriseType
DeepSeekDeepSeekOpen Source 🔓
ChatGPT (GPT-4, o1)OpenAIPropriétaire 🔒
LlamaMetaOpen Source 🔓
ClaudeAnthropicPropriétaire 🔒
QwenAlibabaOpen Weight 🔓
CodestralMistralOpen Source 🔓
GeminiGooglePropriétaire 🔒
GemmaGoogleOpen Weight 🔓

Les performances des modèles évoluent très vite ! Voici quelques ressources pour rester à jour :

Face à cette jungle de modèles, comment faire le bon choix ? Voici les critères à considérer :

CritèreQuestions à se poser
EfficacitéLe modèle est-il bon pour MA tâche ? (code, rédaction, analyse…)
CoûtsQuel est le prix par token ? Mon budget le permet-il ?
Open SourceAi-je besoin d’accéder au code ? De le modifier ?
Exécution localePuis-je le faire tourner sur mes serveurs ?
TailleAi-je le matériel pour faire tourner un gros modèle ?
ConfidentialitéMes données sont-elles sensibles ?
SécuritéLe modèle a-t-il des garde-fous suffisants ?
PerformanceVitesse de réponse acceptable ?

Question 1 : Quelle est la mission principale d’un LLM ?

  • A) Stocker des connaissances comme une encyclopédie
  • B) Prédire le mot suivant le plus probable
  • C) Comprendre le sens profond des textes
  • D) Remplacer les humains

Question 2 : Qu’est-ce que l’hallucination dans le contexte des LLM ?

  • A) Un bug logiciel
  • B) Le fait de générer des informations fausses avec assurance
  • C) Un problème de connexion internet
  • D) Une fonctionnalité désactivée

Question 3 : Que permet le mécanisme d’Attention ?

  • A) De rendre l’IA plus polie
  • B) De traiter tous les mots d’une phrase simultanément
  • C) D’accélérer les calculs
  • D) De réduire la consommation électrique

Question 4 : À quoi sert le RLHF ?

  • A) À rendre le modèle plus rapide
  • B) À aligner le comportement du modèle sur les attentes humaines
  • C) À réduire la taille du modèle
  • D) À traduire le modèle en français
📖 Voir les réponses
  1. B — Prédire le mot suivant le plus probable
  2. B — Le fait de générer des informations fausses avec assurance
  3. B — De traiter tous les mots d’une phrase simultanément
  4. B — À aligner le comportement du modèle sur les attentes humaines