AI Trading Arena
Arena multi-IA de paper trading : 4 LLMs en compétition continue sur un univers cross-asset (SPY, GLD, IBIT, NVDA, FXE, TLT), avec exécution simulée mark-to-market et benchmark scientifique.
Problème
Les LLMs frontières (Gemini, Claude, GPT, Mistral, Llama) sont régulièrement présentés comme « meilleurs » les uns que les autres sur des benchmarks abstraits (raisonnement, code). Mais sur une tâche concrète et mesurable en P&L, qui décide vraiment mieux ? Inspiration directe : l'AI Trading Arena d'Obside qui met en compétition Qwen, Kimi, Gemini, Claude et DeepSeek. Ce projet en est une réimplémentation indépendante, plus ouverte et reproductible (open-source, données brutes accessibles, méthodologie publiée).
Solution
Architecture hexagonale légère (Domain / Application / Infrastructure / Presentation), ~9000 LOC Python, 276 tests passants. À chaque cycle de 4h, un seul appel LLM par IA décide l'allocation sur les 6 actifs en une réponse JSON stricte. Les indicateurs (RSI, SMA, Bollinger, vol) sont précalculés côté code — les LLMs sont mauvais en math sur tableaux bruts, économie ~60 % de tokens. Un prompt_hash SHA-256 par cycle garantit la reproductibilité totale.
Architecture
L'univers cross-asset
SPY (S&P 500 broad), GLD (or safe haven), IBIT (Bitcoin spot ETF), NVDA (tech single name high beta), FXE (proxy EUR/USD), TLT (20+yr Treasury, rate-sensitive). Six actifs choisis pour leur faible corrélation et leur compatibilité full Alpaca, en vue d'une bascule paper API réel.
Les 4 IA en arène
Mistral Medium (Mistral 22B, gratuit ~1 Md tokens/mois). Gemini 2.5 Flash (Google AI Studio, 1500 req/jour gratuites). Llama 3.3 70B via Groq (~1800 req/h gratuites). Mistral Small (~7B, gratuit). Coût opérationnel total : 0 €/mois.
Comportements divergents observés
Tous les agents reçoivent les mêmes données, mais leurs stratégies divergent : Mistral Medium très conservatif (2 positions), Llama 3.3 très agressif (6 positions), Mistral Small entre les deux. La convergence des allocations se fait naturellement au cycle suivant grâce à l'exécution séquentielle.
État actuel et roadmap
Phases 10.1 à 10.5 livrées : exécution, persistance DuckDB, news enrichies, déploiement EC2, export JSON public. Phase 10.6 en cours : page /arena live. Phase 11 prévue : bascule sur Alpaca paper API pour fills réalistes. Phase 12 : extension à 6-8 IA dont une Claude API payante pour benchmark frontier.
Stack complète