Les modèles économétriques classiques souffrent de trois limitations structurelles. Premièrement, ils sont linéaires par construction (ou log-linéaires) — or les relations économiques sont fréquemment non linéaires (effets de seuil, boucles de rétroaction, ruptures structurelles). Deuxièmement, ils utilisent des données agrégées et retardées (PIB trimestriel, inflation mensuelle) qui arrivent avec un décalage de plusieurs mois — pendant ce temps, la réalité a changé. Troisièmement, ils reposent sur un nombre limité de variables (quelques dizaines) sélectionnées par la théorie économique, ignorant des signaux faibles que la théorie n'a pas encore intégrés. Le résultat est une erreur de prévision systématique : le FMI et la Banque Mondiale sous-estiment les croissances rapides et surestiment les croissances lentes, et manquent la plupart des crises (2008, COVID, inflation 2022).
Le machine learning résout les trois limitations de l'économétrie classique. Les modèles non linéaires (random forests, gradient boosting, réseaux de neurones) capturent naturellement les relations complexes et les effets de seuil. Les données alternatives (satellites, flux financiers, requêtes Google, données de mobilité) sont disponibles en temps quasi réel, éliminant le décalage temporel. Et les algorithmes peuvent traiter des centaines de variables simultanément, identifiant des combinaisons de signaux faibles qu'aucun économiste humain ne pourrait isoler. Des études récentes montrent que les modèles ML produisent des prévisions de croissance 15 à 30% plus précises que les modèles économétriques classiques, en particulier pour les économies émergentes où les données officielles sont peu fiables.
Les données alternatives qui alimentent les modèles ML de prédiction économique sont structurellement différentes des données économiques traditionnelles. La luminosité nocturne (satellite) est un proxy de l'activité économique — les pays qui s'illuminent croissent. Les flux de conteneurs maritimes (AIS, données portuaires) sont un proxy du commerce international en temps réel. Les requêtes de recherche (Google Trends) révèlent les intentions d'achat, les inquiétudes (recherches de "chômage") et les anticipations avant qu'elles ne se matérialisent dans les statistiques officielles. La consommation électrique industrielle est un proxy de la production manufacturière. Ces indicateurs ont trois avantages communs : ils sont disponibles en temps quasi réel, ils ne peuvent pas être manipulés par les gouvernements (contrairement aux statistiques officielles de certains pays), et ils couvrent des zones où les données officielles sont inexistantes (économie informelle, régions reculées).
L'adoption du ML pour la prédiction économique crée une asymétrie d'information fondamentale. Un hedge fund qui utilise des modèles ML alimentés par des données satellites et des flux de conteneurs voit un ralentissement économique trois mois avant qu'il n'apparaisse dans les statistiques officielles. Cette asymétrie se traduit directement en avantage de trading : le fonds peut prendre des positions avant que le marché ne réagisse aux données officielles. Elle a aussi des implications géopolitiques : un État qui maîtrise ces techniques peut anticiper les crises économiques chez ses concurrents ou alliés avant qu'ils ne les détectent eux-mêmes. La prédiction économique par ML n'est pas seulement un outil d'analyse — c'est un instrument de pouvoir informationnel.
Les applications de la prédiction économique par ML se répartissent en trois domaines. L'investissement : les hedge funds et les banques utilisent ces modèles pour orienter leurs allocations d'actifs et anticiper les retournements de cycle. La politique publique : les gouvernements peuvent détecter plus tôt les signes de ralentissement et ajuster leurs politiques budgétaires et monétaires avant que la crise ne soit visible dans les données officielles. L'anticipation de crises : les modèles ML entraînés sur les crises passées peuvent identifier des configurations de risque (endettement excessif, bulles d'actifs, déséquilibres commerciaux) avant qu'elles ne se matérialisent en crise. La limite est que les crises sont par nature des événements rares — l'échantillon d'entraînement est petit, et chaque crise est différente des précédentes.
- Événements de rupture (cygnes noirs) : le ML apprend des patterns historiques. Une pandémie, une guerre majeure, une rupture technologique radicale — ces événements n'ont pas de précédent dans les données d'entraînement. Le modèle ne peut pas les prédire et, pire, peut donner une fausse confiance avant qu'ils ne surviennent.
- Overfitting et biais de rétrospection : un modèle ML avec suffisamment de variables finira par trouver des corrélations dans le bruit. La performance en backtest ne garantit pas la performance future — c'est le piège classique du data mining.
- Réflexivité : si les modèles ML de prédiction économique deviennent dominants, leurs prédictions influencent les comportements (investisseurs, gouvernements), ce qui modifie la réalité que les modèles tentent de prédire. C'est le problème de réflexivité identifié par Soros : la prédiction change le prédit.