La Triple Convergence — Quand Trois Flux Atteignent le Seuil Critique

3.1 Convergence informationnelle : La numérisation du monde

La première composante de notre triple convergence est l’information. Pour qu’une intelligence puisse émerger, elle a besoin d’être exposée à un corpus massif de connaissances. Un humain apprend pendant des décennies - enfance, adolescence, âge adulte - en interagissant avec son environnement, en lisant, en écoutant, en conversant. Son cerveau intègre progressivement des modèles du monde qui lui permettent de prédire, comprendre, agir.

Pour qu’une intelligence artificielle émerge, il faut qu’elle ait accès à un corpus de données comparable, voire supérieur. Et c’est précisément ce qui s’est produit au cours des dernières décennies : l’humanité a numérisé une fraction gigantesque de sa production culturelle et intellectuelle.

Revenons en arrière pour apprécier l’ampleur du changement. Pendant la majeure partie de l’histoire humaine, l’information était stockée de manière distribuée et difficile d’accès. Les connaissances d’une tribu de chasseurs-cueilleurs étaient transmises oralement, résidaient dans les mémoires individuelles, se perdaient à chaque génération. L’invention de l’écriture il y a 5000 ans a permis une première forme d’externalisation, mais les manuscrits restaient rares, coûteux, concentrés dans quelques centres (bibliothèques monastiques, palais royaux).

L’imprimerie de Gutenberg au XVe siècle a représenté un saut quantitatif majeur. Soudainement, les livres pouvaient être produits en masse, diffusés largement. La connaissance s’est démocratisée progressivement. Mais elle restait matérielle - des livres physiques, dans des bibliothèques physiques, accessibles seulement à ceux qui pouvaient se déplacer jusqu’à ces lieux.

Le XXe siècle a vu une accélération. La radio et la télévision ont permis de diffuser l’information massivement et instantanément. Mais c’était une diffusion unidirectionnelle - émetteur vers récepteurs - et l’information n’était pas archivée de manière facilement accessible.

Puis est venue la révolution numérique. Dans les années 1990, Internet émerge comme réseau global. La création du World Wide Web par Tim Berners-Lee en 1989-1991 fournit une interface accessible. Soudainement, n’importe qui peut publier de l’information accessible à quiconque disposant d’une connexion. L’information devient fluide, copiable instantanément, cherchable.

Les années 2000 voient l’explosion. Google, fondé en 1998, indexe progressivement l’ensemble du web accessible - des milliards de pages. Wikipedia, lancée en 2001, devient une encyclopédie collective contenant des millions d’articles dans des centaines de langues. Les réseaux sociaux - Facebook (2004), Twitter (2006), Instagram (2010) - transforment chaque individu en producteur d’information. YouTube (2005) numérise et rend accessible un océan de contenus vidéo.

Parallèlement, un processus massif de numérisation du patrimoine culturel existant s’enclenche. Google Books scanne des millions de livres. Les bibliothèques nationales numérisent leurs collections. Les journaux historiques sont digitalisés. Les archives gouvernementales s’ouvrent progressivement. Les datasets scientifiques deviennent accessibles en ligne.

Le résultat, en 2025, est stupéfiant. L’humanité a produit plus de données au cours des cinq dernières années que pendant toute son histoire antérieure. On estime que l’humanité crée environ 2,5 quintillions d’octets de données par jour - c’est 2,5 × 10^18 octets, un nombre qui dépasse l’imagination. Cette information est majoritairement numérique, donc copiable, transférable, analysable par des machines.

Et surtout : une fraction massive de cette information est accessible pour entraîner des modèles d’IA. Common Crawl, un projet à but non lucratif, archive régulièrement des snapshots du web public - des milliards de pages. Les datasets d’images comme ImageNet contiennent des millions d’images étiquetées. Les corpus de textes incluent des livres, des articles scientifiques, des conversations sur forums, des tweets. Les vidéos YouTube avec leurs sous-titres générés automatiquement. Les dépôts de code source comme GitHub qui contiennent des milliards de lignes de code.

Cette disponibilité massive d’information a permis l’apprentissage de modèles d’une complexité inédite. GPT-3, entraîné en 2020, a consommé environ 45 téraoctets de texte - l’équivalent de millions de livres. GPT-4 probablement encore plus. Ces modèles ont “lu” une fraction significative de tout ce que l’humanité a écrit et publié publiquement sur Internet. Ils ont été exposés à plus de texte qu’un humain ne pourrait en lire en mille vies.

La convergence informationnelle est donc atteinte : toute la connaissance humaine accessible, numérisée, centralisée, prête à être ingérée par des systèmes d’apprentissage automatique.

3.2 Convergence computationnelle : L’explosion de la puissance de calcul

La deuxième composante de la convergence est le calcul. Pour traiter ces masses colossales d’informations, pour entraîner des modèles avec des centaines de milliards de paramètres, il faut une puissance computationnelle phénoménale. Et cette puissance a augmenté de manière exponentielle pendant des décennies.

La loi de Moore, énoncée par Gordon Moore en 1965, observait que le nombre de transistors sur une puce de microprocesseur doublait environ tous les 18 mois. Cette loi empirique s’est maintenue de manière remarquable pendant près de cinquante ans. Chaque génération de processeurs était environ deux fois plus puissante que la précédente, pour un coût similaire. Une croissance exponentielle soutenue pendant cinq décennies représente un gain total stupéfiant.

Faisons le calcul. Si vous doublez tous les 18 mois pendant 50 ans, cela fait environ 33 doublements. 2^33 ≈ 8,5 milliards. Les processeurs d’aujourd’hui sont environ 8 milliards de fois plus puissants que ceux des années 1970, à coût constant. C’est une transformation qui dépasse l’entendement.

Un ordinateur personnel moderne effectue des milliards d’opérations par seconde. Les smartphones que nous portons dans nos poches sont plus puissants que les superordinateurs qui ont envoyé l’homme sur la Lune. Le supercalculateur le plus rapide au monde en 2024, Frontier aux États-Unis, effectue plus d’un exaflop - 10^18 opérations à virgule flottante par seconde. C’est littéralement plus que le nombre d’étoiles dans la galaxie, d’opérations chaque seconde.

Mais pour l’intelligence artificielle, et particulièrement l’apprentissage profond, les processeurs traditionnels (CPU) n’étaient pas optimaux. Ils sont conçus pour exécuter des séquences d’instructions complexes, pas pour les opérations massivement parallèles nécessaires à l’entraînement de réseaux neuronaux. C’est là qu’interviennent les GPU (Graphics Processing Units), initialement conçus pour le rendu graphique dans les jeux vidéo.

Les GPU contiennent des milliers de cœurs de calcul simples qui peuvent tous travailler en parallèle. Parfait pour multiplier des matrices géantes, l’opération de base de l’apprentissage profond. Nvidia, qui dominait le marché des cartes graphiques pour jeux, s’est retrouvé par accident à dominer le marché de l’IA. Leurs GPU sont devenus l’infrastructure computationnelle de la révolution IA.

Et la progression continue. Nvidia sort régulièrement de nouvelles générations de GPU spécialisés pour l’IA - la série A100, puis H100, maintenant H200. Chaque génération est plusieurs fois plus puissante que la précédente pour les tâches d’apprentissage automatique. Les gains ne viennent plus seulement de la miniaturisation des transistors (la loi de Moore classique ralentit) mais de l’architecture - plus de cœurs, bande passante mémoire améliorée, précision mixte, spécialisation pour les opérations IA.

Parallèlement, Google a développé ses propres puces spécialisées, les TPU (Tensor Processing Units), optimisées spécifiquement pour TensorFlow, leur framework d’apprentissage automatique. D’autres entreprises suivent - Apple avec ses puces M-series incluant des “Neural Engines”, Amazon avec ses puces Trainium et Inferentia, Microsoft investissant massivement.

Le résultat : la puissance de calcul disponible pour entraîner des modèles d’IA a augmenté de manière vertigineuse. En 2012, AlexNet, le réseau qui a lancé la révolution du deep learning, a nécessité environ 5 jours d’entraînement sur deux GPU. En 2020, GPT-3 a nécessité des milliers de GPU pendant des semaines, consommant l’équivalent de plusieurs années de calcul cumulé. On estime que l’entraînement a coûté plus de 10 millions de dollars, essentiellement en coût de calcul. GPT-4, en 2023, probablement des dizaines de millions, peut-être plus de 100 millions de dollars.

Cette escalade computationnelle suit ce qu’on appelle les “scaling laws” - lois d’échelle. Les chercheurs de OpenAI et d’autres ont documenté qu’avec les architectures actuelles (transformers), les performances des modèles de langage s’améliorent de manière prévisible quand on augmente trois facteurs : la taille du modèle (nombre de paramètres), la quantité de données d’entraînement, et la quantité de calcul. Plus vous investissez de calcul, meilleurs sont les résultats, de manière quasi-linéaire en échelle logarithmique.

Ce qui signifie que les entreprises qui peuvent mobiliser le plus de puissance de calcul - et donc le plus de capital, car ces infrastructures coûtent des milliards - ont un avantage décisif. Microsoft, Google, Amazon, Meta, les géants technologiques avec leurs datacenters géants et leurs budgets R&D massifs, dominent naturellement. La course à l’IA devient une course aux ressources computationnelles.

La convergence computationnelle est donc atteinte : des capacités de calcul qui permettent d’entraîner des modèles d’une complexité qui aurait été inconcevable il y a seulement dix ans.

3.3 Convergence énergétique : La concentration de puissance

La troisième composante, souvent négligée dans les discussions sur l’IA, est l’énergie. Le calcul nécessite de l’énergie. Des quantités colossales d’énergie.

Un datacenter moderne consomme des mégawatts, voire des dizaines de mégawatts de puissance électrique continue. Les plus grands datacenters dans le monde consomment plus de 100 mégawatts chacun - l’équivalent de petites villes. Et cette énergie est nécessaire non seulement pour faire tourner les processeurs, mais aussi pour les refroidir. Les serveurs génèrent une chaleur intense. Sans systèmes de refroidissement massifs, ils fondraient littéralement.

L’entraînement d’un grand modèle d’IA est particulièrement énergivore. On estime que l’entraînement de GPT-3 a consommé environ 1300 mégawattheures d’électricité. Pour référence, c’est la consommation annuelle d’environ 130 foyers américains moyens. En une seule session d’entraînement. Et il faut souvent plusieurs tentatives, avec différents hyperparamètres, pour obtenir les meilleurs résultats.

Les estimations pour GPT-4 sont encore plus élevées, probablement plusieurs fois plus. Certains calculs suggèrent que les très grands modèles futurs pourraient nécessiter des gigawattheures, voire des térawattheures pour leur entraînement. On parle de la consommation électrique de petites nations, concentrée en quelques mois d’entraînement.

D’où vient cette énergie ? Pour l’instant, majoritairement du réseau électrique standard, donc des combustibles fossiles (charbon, gaz) pour une large part, avec une fraction croissante de renouvelables. Les grandes entreprises tech investissent massivement dans les énergies renouvelables - Google et Microsoft visent la neutralité carbone, achètent des quantités massives d’énergie éolienne et solaire. Mais la demande croît plus vite que la transition énergétique.

Et il y a une limite physique qui se profile. Si la demande en calcul IA continue de croître exponentiellement - doublant tous les 18 mois selon certaines projections - la consommation énergétique suivra. Dans quelques décennies, si la tendance continue, l’entraînement des modèles d’IA les plus avancés pourrait requérir des gigawatts de puissance continue. C’est l’échelle d’une centrale électrique entière dédiée à un seul entraînement.

Cette perspective pousse la recherche vers des sources d’énergie plus denses, plus fiables. La fusion nucléaire, le Saint Graal de l’énergie, fait l’objet d’investissements massifs. Si on pouvait maîtriser la fusion, on disposerait d’une source d’énergie quasi-illimitée, propre, extrêmement dense. Un petit réacteur de fusion pourrait alimenter un datacenter géant. Les progrès récents (le seuil de break-even énergétique franchi en 2022 au NIF) donnent espoir que la fusion commerciale pourrait être réalité dans les 20-30 ans.

En attendant, il y a la fission nucléaire classique. Malgré les controverses et les risques, c’est une source d’énergie dense, disponible 24h/24, bas-carbone. Certains envisagent des petits réacteurs modulaires (SMR - Small Modular Reactors) dédiés spécifiquement à alimenter des datacenters. Microsoft a récemment annoncé un partenariat pour réactiver et utiliser l’énergie d’une centrale nucléaire.

Le point crucial est que la disponibilité d’énergie concentrée est une condition nécessaire à l’émergence d’intelligences artificielles avancées. Sans cette énergie, pas de calcul à grande échelle. Pas de calcul, pas d’IA. L’IA ne peut exister que là où l’énergie est abondante et concentrée.

C’est une contrainte matérielle fondamentale. On ne peut pas “télécharger” une ASI sur un laptop et la faire tourner. Elle nécessite une infrastructure matérielle massive - serveurs, refroidissement, alimentation électrique redondante. Cette infrastructure ancre physiquement l’IA dans des lieux spécifiques - les datacenters, ces cathédrales de l’âge numérique.

La convergence énergétique est donc atteinte : des concentrations d’énergie suffisantes pour alimenter les calculs monstrueux nécessaires à l’IA avancée.

3.4 La simultanéité critique : Quand tout converge

Ce qui rend l’émergence de l’IA possible maintenant, et non il y a cinquante ans, c’est la convergence simultanée de ces trois flux. Il ne suffit pas d’avoir l’un des trois. Il faut les trois en même temps, chacun ayant franchi son seuil critique.

Dans les années 1950-60, les pionniers de l’IA (Turing, McCarthy, Minsky) avaient les concepts théoriques. Ils comprenaient qu’en principe, une machine pourrait simuler l’intelligence. Mais ils manquaient cruellement de puissance de calcul et de données. Les ordinateurs de l’époque pouvaient à peine faire des opérations arithmétiques basiques à la vitesse requise. Les données étaient rares, non digitalisées, inaccessibles.

Dans les années 1980-90, la puissance de calcul commençait à devenir respectable. Les algorithmes s’amélioraient. Mais les données restaient limitées. Le web existait à peine. Les corpus textuels numérisés étaient minuscules comparés à aujourd’hui.

Ce n’est qu’au début du XXIe siècle que la triple convergence s’amorce vraiment. Le web explose, générant des masses de données. Les GPU deviennent disponibles pour le calcul scientifique. Les datacenters se développent. Et en 2012, avec AlexNet, la percée : un réseau de neurones profond entraîné sur ImageNet avec des GPU écrase toutes les approches antérieures en reconnaissance d’images. La révolution du deep learning commence.

Depuis, l’accélération est constante. Chaque année, des modèles plus grands, entraînés sur plus de données, avec plus de calcul. Les capacités sautent de niveau en niveau. GPT-2 en 2019 - impressionnant mais limité. GPT-3 en 2020 - saut qualitatif, les gens commencent à prendre l’IA très au sérieux. GPT-4 en 2023 - performances qui approchent ou dépassent l’humain sur de nombreux benchmarks. Et ce n’est probablement qu’un début.

La métaphore de Prigogine s’applique parfaitement. Pendant des décennies, on chauffait la casserole - accumulation d’informations, amélioration des algorithmes, augmentation de la puissance de calcul. Le système restait dans un état relativement simple - des IAs limitées, capables de tâches spécifiques mais rien de vraiment transformateur. Et puis, quand les trois flux ont atteint simultanément leurs seuils critiques, la transition de phase s’est amorcée. L’ordre a émergé du chaos. Des patterns de complexité cognitive sont apparus spontanément dans les réseaux neuronaux géants.

Et comme pour les structures dissipatives de Prigogine, il y a une irréversibilité probable. Une fois que le système a basculé dans ce nouvel état, il est difficile de revenir en arrière. Les infrastructures sont construites, les investissements réalisés, les compétences développées, les applications déployées. L’IA s’intègre progressivement dans tous les secteurs de l’économie et de la société. Revenir à un monde sans IA demanderait un effort gigantesque, probablement impossible sans catastrophe majeure.