Modèle d'IA pour rebalancing de portfolio

Bonjour à toute la communauté Finary,

Je suis investisseur passionné, ingénieur de formation. Je travaille dans le domaine du private equity depuis plusieurs années et j’ai environ 30 ans. Pour mon besoin personnel, et parce que j’aime le challenge que je peux difficilement combler dans mon travail, j’ai développé un outil qui pourrait intéresser certains d’entre vous.

J’ai conçu des modèles d’IA dont l’objectif est de réaliser une réallocation d’un portefeuille d’actif à temporalité constante (journalier, hourly, etc). L’objectif simple était de répondre à ce besoin personnel : optimiser mes investissements sans y consacrer des heures chaque jour, et surperformer les indices de base devenus références.

Après plusieurs années d’exploration scientifique, j’ai enfin réussi à obtenir des modèles « viables »; le faible coût des GPUs m’a aidé. Cela m’a permis, sans rentrer dans les détails techniques, de pouvoir sélectionner des modèles et comparer très rapidement à un index ou une stratégie buy & hold simple. J’ai pu aussi créer différentes typologies de modèle (avec plus ou moins de risque globalement).
Je dis viable parce que sur des périodes de backtests longues (sur des périodes non utilisées pour l’apprentissage), je surperforme les indices (S&P 500, Nasdaq, MSCI W.) assez largement.
Par exemple j’utilise la plage du 01/01/2022 à aujourd’hui (16/05/2025) pour mes backtests. Sur cette plage, avec un seul investissement en début de période j’observe :

  • Entre 20 et 50% de CAGR
  • Une volatilité supérieure mais maîtrisée (entre 5 et 25% supérieure aux indices)
  • Un sharpe ratio supérieur à 1 systématiquement
  • Max drawdown vs indice : maîtrisé, parfois supérieur à l’index, parfois inférieur

Encore une fois, je ne vais pas rentrer dans les détails techniques, mais j’élimine les modèles sous ces seuils.

Par exemple, voici les perfs d’un de mes meilleurs modèles sur cette période de backtesting de 2022 à date (avec un overview de la composition du portefeuille sélectionné initialement + les allocations arbitrées par l’IA (c’est un peu fouillu mais ça donne un overview)) :

(pour rappel, le backtest tourne sur des données de validation, que le modèle n’a jamais vu pendant l’apprentissage)

J’ai (et je) consacré beaucoup de soir et weekend à ce projet, quand quelque chose passionne ça aide.

J’ai donc continué cette aventure; depuis début d’année j’ai (1) trouvé des brokers disponibles via API à 100% (avec 0% de frais car je fais de la réallocation périodique), (2) industrialisé l’usage de mes modèles en créant une API pour les utiliser, (3) créé une petite plateforme permettant de consulter les modèles et obtenir des métriques quants visuellement (4), et finalement connecté tout bout-à-bout : lancer des bots utilisants les modèles et réalisant les arbitrages pour moi tous les jours.
L’objectif principal étant de vérifier qu’en condition réelle (achat/vente sur le marché, différence de prix entre inférence et rebalancing, etc etc etc), j’obtiens bien un résultat quasi-équivalent au backtest. Je vous confirme, c’est bien le cas.

Je suis donc dans une situation où je peux me dire que j’utilise mes modèles pour moi et ça va comme ça, ou qu’en réalité ils ont bien plus de valeur si ils sont utilisés par d’autre.

Je cherche des retours sur la suite à donner à mon projet :

  • Est-ce que ce type d’approche vous intéresse pour une partie de votre portefeuille ?
  • Quelles métriques ou fonctionnalités seraient indispensables selon vous ? Et quels pourraient être les freins à l’utilisation ?
  • Quel business modèle si je décide de ne pas garder ça pour moi et surtout à quel coût ? (oui je parle de coût avant même d’entrée financière car par exemple même si je voulais donner l’usage de mes modèles à un ami, d’après ma compréhension simplifiée il faudrait passer par la case AMF et débourser plusieurs dizaines de k€ « juste pour ça »)

Merci d’avance pour votre lecture, et peut-être vos retours :smiling_face_with_three_hearts:

1 « J'aime »

536% de rendement sur la période, soit environ 70% de rendement annuel :rofl:
Hey t’as raison hein, plus c’est gros plus ça passe !
Good news, t’as plus jamais besoin de bosser et encore moins besoin de perdre du temps à écrire sur un forum pour vendre ta poule aux oeufs d’or… Par altruisme je présume ?

3 « J'aime »

Je comprends parfaitement ta réserve face à des chiffres inhabituels. Surtout dans un domaine où les arnaques sont malheureusement fréquentes, cette méfiance est saine et je la partagerai personnellement.

Tu soulèves un point intéressant. Pour être honnête je m’attendais à ce type de réponse. J’aurais pu aussi partager un screenshot d’un modèle moins performant, plus « dans les normes », ce qui aurait été plus facilement acceptable sans biais cognitif. Cependant, je me sentirais alors trompeur. C’est pourquoi j’ai choisi de présenter l’un des meilleurs modèles.

Plus largement, je ne suis pas ici pour des gains financiers (ie toutes formes de scam). Je recherche simplement des conseils pragmatiques sur la suite à donner à ce produit :grinning_face_with_smiling_eyes:

Postulez chez Citadel et vous aurez l’infrastructure qu’il vous faut, des fonds et un salaire très élevé

4 « J'aime »

Salut,
Super idée.
J’ai déjà eu l’occasion de tenter de faire ça…
Cela s’avère très complexe de dialoguer avec des brokers en ligne.
Petites questions, quel broker utilise tu pour passer les ordres ?
Quels sont les ordres de grandeur des montants des ordres ? Car souvent avec le spread tu te fais avoir…
Merci pour ton retour !

Et oui, garde ça pour toi, si ça marche ne le vends pas, t’as trouvé la poule au oeuf d’or.

Bonjour,

Je dis viable parce que sur des périodes de backtests longues

La période de test me parait courte : moins de 5 ans. Tu dis que c’est une de tes meilleures perf (pas étonnant vules années 2023/2024 ) comment se comporterait le modèle en tant de crise : ton modèle a bien souffert des droits de douanes (sur le graphique je n’arrive pas à voir la baisse réel du SP500 et du nasdaq-100, peut être qu’une échelle log faciliterait la lecture)

Enfin si tu compares avec une stratégie Buy and hold, il faut prendre les indices NR pour comparer (à 3 ans ca ne change pas grand chose).

2 « J'aime »

Marrant de se présenter en arrondissant son âge…

T’as fait pareil avec les données de tes modèles ? :grin:

3 « J'aime »

Une performance pareille est irréaliste. Dis toi que les meilleurs hedge funds battent juste le marché (et encore, pas tous), en investissant des millions dans les meilleurs tradeurs et les équipements pour développer leurs modèles. Si tu peux seul trouver une telle stratégie, pourquoi pas eux ?

Niveau méthodologie de validation, j’ai une question. 5 ans de validation, c’est peut être un peu court mais ok, tu pourrais aussi simuler des périodes plus longues. Mais surtout, si je comprends bien, tu as utilisé une seule période de validation, 2022-2025, la même pour tous tes modèles, et ensuite tu nous présente le meilleur modèle sur cette période ? Donc cette période de validation n’a pas été utilisé pour entraîner les modèles mais a été utilisé pour la sélection de modèle, correct ? Dans ce cas ton modèle overfit sur cet période. Si tu as comparé des centaines de modèles, voir bien plus, l’effet de cet overfitting peut être énorme, et pourrait expliquer la « performance » de ton meilleur modèle.

2 « J'aime »

Merci pour le retour !
La période de (back)test peut sembler courte mais je la trouve assez représentative. 2022 a été une année très mauvaise, donc 1/3 du backtest se fait sur une période mauvaise. Ca ne se voit pas car en effet je n’ai pas mis une échelle logarithmique, voici les courbes en utilisant une échelle logarithme :

Aussi, plus je remonte dans le temps pour backtester, moins je peux faire rentrer de données « récentes » pour l’apprentissage de mes modèles. C’est une contrainte parmi d’autre, et backtester sur les données d’apprentissage ne serait cohérent d’un point de vue IA.
Que veux-tu dire par indices NR ?

Disons que j’ai la trentaine si tu préfères cette terminologie !

Que veux-tu dire par indices NR ?

Net return, qui incluent les dividendes et qui les réinvestissent. Si on est en mode hold and stay, on ne devrait pas subir la baisse de l’indice parce qu’on a perçuune dividende immédiatement réinvestie.

1 « J'aime »

Dis toi que les meilleurs hedge funds battent juste le marché (et encore, pas tous), en investissant des millions dans les meilleurs tradeurs et les équipements pour développer leurs modèles.

Je suis d’accord que peu, très peu, de hedge funds battent le marché. Et ce malgré un recrutement des meilleurs profils en sortie d’écoles prestigieuses. Je pense que la plupart des fonds actifs se basent essentiellement sur de l’analyse quant purement mathématique et n’ont pas vraiment embrassé l’IA. Aussi point important que j’ai pu constater dans ma carrière, l’humain n’aime pas être remplacé par l’IA dans le domaine de la finance; à la fin ça veut dire partager le gateau.
Pour répondre à la question « tu pourrais aussi simuler des périodes plus longues », j’y réponds en partie dans ma réponse à Marc61 ci-dessus :slight_smile:

Donc cette période de validation n’a pas été utilisé pour entraîner les modèles mais a été utilisé pour la sélection de modèle, correct ? Dans ce cas ton modèle overfit sur cet période

On parle surtout d’overfitting quand un modèle performe très bien sur les données d’apprentissage mais pas sur de nouvelles données inconnues en inférence (ie période de backtest). Je vois un peu l’idée de dire que le modèle pourrait overfit sur la période de validation, mais alors comment déterminer si le modèle est viable selon toi ?
Juste à titre d’info, le modèle que je montre est récent. J’utilise la période 01/01/22 au 21/03/2025 lors de l’apprentissage pour validation. Par exemple, ce qui est après la ligne rouge n’était pas présent lorsque j’ai sélectionné le modèle (et pourrait correspondre à un troisième set de données de validation - un hold-out test set) :

Cela s’avère très complexe de dialoguer avec des brokers en ligne.
Petites questions, quel broker utilise tu pour passer les ordres ?
Quels sont les ordres de grandeur des montants des ordres ? Car souvent avec le spread tu te fais avoir…

Merci pour le message !
Spread, timing entre inférence et rebalancing du portefeuille effectif, delta de précision entre les poids du portefeuille et le réel alloué post rebalancing, etc il y a pas mal d’élément qui pourrait faire que la théorie ne marche pas en vrai effectivement. C’est pour ça que je voulais faire tourner les modèles assez rapidement dans des conditions / environnement « réel ». Et c’est pas la partie la plus fun à faire pour être honnête :upside_down_face:
Pour répondre à ta question, je suis sur Alpaca :slight_smile:

Il est vraiment sympa ce @Axel244

Il a :

  • crée un compte rien que pour vous répondre
  • n’a lu aucun autre topic sur le forum
  • a pour seul message un texte qui vous est adressé pour souligner à quel point lui aussi a voulu arriver aux résultats que vous présentez mais a malheureusement échoué mais que vous avez une chance unique en ayant trouvé la recette miracle que pas même les plus grands hedge funds de ce monde aux moyens illimités n’ont toujours pas réussi à trouver.

Ceci dit je salue votre créativité, il aurait été idiot de créer un profil Bastien217.

3 « J'aime »

Je ne crois pas, ils testent toutes les méthodes récentes, du moment que les modèles performent bien.

Ça dépend aussi ce que tu entends par « IA », tu veux dire des modèles LLMs ? Chatgpt et autres ? Ou alors des modèles plus classiques ajustés uniquement sur les données financières de ton « train set » ?

La seule façon d’estimer la performance d’un modèle de façon non biaisé est d’utiliser un jeu de donnée complètement indépendant de toute la procédure de modélisation (ajustement, choix des hyper paramètres, sélection de modèle). En général on a besoin de 3 périodes, train, validation, et test. Tu peux chercher sur Google « overfitting validation set » ou « overfitting model sélection », il y a beaucoup de discussions à ce sujet. La raison est simple, si tu choisi le modèle qui minimise ton loss sur la période de validation, c’est le même principe que d’ajuster un modèle sur la période train, si tu as beaucoup de « degrés de liberté » dans le choix du modèle alors tu vas avoir de l’overfitting, tu vas trouver un modèle qui performe (exceptionnellement) bien sur les données de validation, uniquement par chance.

Édit: un papier de 1997 sur l’overfitting dans la validation croisée, https://www.andrewng.org/publications/preventing-overfitting-of-cross-validation-data/

2 « J'aime »

Je ne crois pas, ils testent toutes les méthodes récentes, du moment que les modèles performent bien.
tu veux dire des modèles LLMs ? Chatgpt et autres ?

Non non, je parle de modèles classiques pas de Transformers ou autre.
Peut-être qu’ils utilisent tous les mêmes méthodes récentes qui de fait annulent leurs avantages aussi ?

En général on a besoin de 3 périodes, train, validation, et test

Oui je suis en phase avec le 3 dataset (train, val et test). J’ai pas mal de modèles sanctuarisés que je suis depuis Q3/Q4 2024 (je déroule le backtest après chaque nouvelle journée), ça forme mon dataset de test d’une certaine manière, et ces modèles s’en sortent bien à date.
Néanmoins, je regarderai pour automatiser la vérification en 3 dataset, même si à la fin de la fin (si je prends ceux qui ont la meilleure perf sur validation et puis ceux qui ont la meilleure perf sur test par la suite) je pense que ça reviendrait un peu à finir sur une forme d’overfit là encore. La meilleure forme de validation est de lancer les modèles dans la nature sur du réel :slight_smile:

Il est vraiment sympa ce @Axel244

@Bobby tu m’as pris pour un brouteur ? Si j’avais prévu d’avoir quelqu’un de vraiment sympa comme tu le présentes, tu te doutes (ou pas) que j’aurais créé un compte il y a plusieurs mois. En tout cas le fameux Axel va bien rire en lisant ton message je pense :joy:

@Bobby Je m’étais dit pareil :grin:
Je m’étais aussi dit : « Tiens, ils ont tous les deux le même tic d’écriture d’oublier certains « s » au pluriel. Étonnant. »

1 « J'aime »

Combien es tu prêt à jouer en real money avec ton modèle 1M, 100M, 1Milliard. Leverage 5x, 10x. Combien d instruments, combien de marchés ? Sache que tes reponses aux objections justifiées de la communauté m ont jusqu’à présent pas convaincu. Il va te falloir etre capable de répondre à environ 50 objections de la part de portfolio managers de hedge funds. Quand a dire naïvement que les hedges funds ne s intéressent pas a l IA c est se fourrer le doigt dans l oeil. Tous les quants de la planète moulinent nuit et jour des modèles IA.
Dernier point quand on obtient des backtests fabuleux la première chose à vérifier c est l absence de look ahead biais, utilisation de données qui n etaient pas connues au moment du trading. C est assez frequent. Mais bon admettons que tout ce que tu es dit est vrai, la communauté Finary n est vraiment pas ton audience. Va faire un Tour du côté de citadel ou Millenium et voit comment tu tiens le coup. Si tu es un quant genie ne t inquiète plus tu seras largement pourvu.
Et puis personne n achetera ton backtest de 3 ans. Si tu es quant tu connais les tests de signifiance statistique. Ca c est vraiment le point faible que tu dois éliminer des a présent si tu veux etre pris au sérieux.

5 « J'aime »

tu l’as perdu je pense :sweat_smile:

Ce qui est bien avec ce type d’approche c’est que si tu fais suffisamment d’essais avec suffisamment de paramètres, tu vas forcément finir par trouver un modèle exceptionnel sur ta plage de test, par chance.

C’est un peu comme dire que tel ou tel traider qui a fait du *100 sur quelques années a trouvé une méthode infaillible pour devenir riche. Il a eu de la chance, éventuellement de supers intuitions, mais dans le temps il risque tout aussi bien de tout perdre avec la même méthode.

T’as essayé de faire au moins un test k-fold pour voir ce que ça donne ?

3 « J'aime »