Navigating Rates
Du nombre de mots aux transformateurs
Les modèles de transformateurs basés sur l'IA comme GPT et FinBERT transforment l’analyse des textes financiers, en améliorant la compréhension et les stratégies d’investissement
Qu’est-ce qu’un modèle « Transformer » ? Illustration de la technologie à l’aide d’exemples concrets
Les premières approches dans le domaine du NLP permettait de saisir la structure générale, mais avaient eu du mal à comprendre les nuances. Pour aller au-delà de la simple correspondance de mots, les chercheurs ont dû vaincre la complexité (la « malédiction de la dimensionnalité »1) en représentant les mots comme des points dans un espace (vectoriel) de dimensions raisonnablement faibles, appelés « word embeddings » (modèles de mots ou représentation vectorielle).
Après que Bengio et al. (2003)2 aient introduit les réseaux neuronaux pour calculer les modèles d’embeddings tels que Word2Vec, cela se sont considérablement popularisés et sont devenus opérationnels. Il est frappant de constater que cette génération de modèles capture à la fois les relations sémantiques et syntaxiques, ce qui en fait l’une des techniques fondamentales du NLP moderne.
Dans notre épisode précédent, nous avons exploré les représentations vectorielles de mots tels que GloVe3 (qui était à l’époque le plus grand concurrent de Word2Vec) et la manière dont l’équipe de Systematic Equity les utilise pour transformer les transcriptions des conférences téléphoniques sur les résultats et les documents 10-K en signaux d’investissement visant à améliorer les rendements ajustés au risque.
GloVe, comme d’autres représentations vectorielles de mots sont des outils puissants : ils capturent les relations entre les mots et permettent souvent de comprendre le contexte de manière étonnamment précise, en particulier lorsqu’elles sont appliquées à de grands ensembles de données spécifiques à un domaine.
Cependant, les « word embeddings » continuent de cartographier chaque mot sur une représentation unique et fixe, indépendamment de la phrase ou du contexte spécifique dans lequel il apparaît. Après plusieurs tentatives infructueuses pour surmonter cette limitation, l’article « Attention is All You Need »4 publié en 2017, a finalement introduit les modèles transformateurs (transformer), qui interprètent dynamiquement les mots en fonction de leur contexte. Par exemple, dans les modèles traditionnels d’intégration de mots, le mot « bank » aurait la même signification qu’il apparaisse dans « river bank » (rive d’une rivière) ou « bank account » (compte bancaire). En revanche, les modèles de transformateurs peuvent distinguer ces significations en considérant la phrase dans son ensemble, en comprenant si « bank » fait référence à la rive d’une rivière ou à une institution financière. Contrairement aux « word embeddings » statiques, les transformateurs lisent comme des humains, en interprétant le langage de manière adaptative en fonction du contexte. Bien que plus complexes et plus gourmands en ressources, ils offrent une compréhension plus profonde et plus flexible du langage.
Au coeur de cette innovation se trouve un mécanisme appelé « autoattention », qui permet au modèle d’évaluer l’importance de chaque mot dans une phrase, voire dans un document, par rapport à tous les autres mots. Cela signifie que le modèle ne se contente pas d’examiner les mots un par un, mais qu’il tient compte de la manière dont tous les mots d’un article sont liés les uns aux autres afin d’en saisir le sens dans son ensemble.
Imaginez que vous décriviez des vacances : « J’ai emmené ma chienne à la plage, et elle a adoré jouer avec les vagues. » Un modèle de transformateur comprend que « elle » fait référence à « mon chien » et que « jouer avec les vagues » est une activité agréable qui se déroule à la plage. Il prête attention à ces liens entre les phrases, plutôt que d’interpréter chaque mot séparément. Cette capacité à relier des mots et des idées à travers de grands blocs de texte, voire des documents entiers aide les transformateurs à comprendre le langage de manière beaucoup plus proche de celle d’un être humain, ce qui en fait des outils puissants pour des tâches telles que la traduction, la synthèse et l’analyse des sentiments. La technologie des transformateurs est la pierre angulaire des modèles de langage les plus avancés (LLMs), où le terme « large » fait référence aux milliards, voire aux milliers de milliards de paramètres qu’ils contiennent.
Les LLM dans lagestion d’actifs
Il existe plusieurs LLM commerciaux et open source sur le marché, chacun étant conçu pour répondre à divers besoins, y compris ceux spécifiques à la finance. Parmi ceux-ci, deux des modèles les plus populaires sont basés sur GPT (Generative Pre-trained Transformer) et BERT (Bidirectional Encoder Representations from Transformers). Dans la famille des modèles GPT, BloombergGPT5 est adapté aux applications financières. De même, dans la famille des modèles BERT, FinBERT6 est apparu comme une version de BERT qui a été spécifiquement formée pour comprendre et analyser des textes financiers.
BloombergGPT est un grand modèle linguistique développé par Bloomberg, conçu spécifiquement pour le domaine financier. Ce modèle contient plus de 50 milliards de paramètres et a été formé sur un ensemble de données de plus de 700 milliards de tokens (l’unité de base du texte). Cela comprend environ 360 milliards de tokens provenant de leurs sources de données financières (y compris des articles d’actualité, des rapports de recherche et des données de marché), ainsi que 345 milliards de tokens provenant d’ensembles de données à usage général.
D’autre part, FinBERT est un modèle de transformateur compact et open source basé sur l’architecture BERT. Comme l’expliquent Huang, Allen H., Hui Wang et Yi Yang dans leur article publié en 2022, FinBERT a été formé à partir d’un corpus de textes financiers standard composé de 2,5 milliards de tokens provenant de rapports d’entreprise (formulaires 10-K et 10-Q), 1,3 milliard de tokens provenant de transcriptions de conférences téléphoniques sur les résultats et 1,1 milliard de tokens provenant de rapports d’analystes.
Pour l’analyse des sentiments, la couche de classification finale de FinBERT a été affinée à l’aide de 10 000 phrases annotées manuellement provenant de rapports d’analystes, étiquetées comme positives, négatives ou neutres. Cet entraînement ciblé permet à FinBERT de détecter des sentiments nuancés, tels que l’optimisme prudent ou l’inquiétude, qui apparaissent souvent dans les conférences téléphoniques sur les résultats et les documents réglementaires.
Comme FinBERT est basé sur l’architecture BERT, il hérite de la capacité à comprendre le contexte et le sens à un niveau profond. Cet entraînement ciblé permet à FinBERT de détecter des sentiments nuancés, tels que l’optimisme prudent ou l’inquiétude, qui apparaissent souvent dans les conférences téléphoniques sur les résultats et les documents réglementaires. De plus, sa structure compacte et sa nature open source permettent sa personnalisation et son intégration dans des flux de travail propriétaires.
Défis et risques liés au recoursexclusif à des LLM tiers
Cependant, FinBERT présente également certaines limites connues. Par exemple, il classe parfois à tort des expressions courtoises telles que « Passez une bonne journée » ou « Bon appétit » comme des sentiments positifs, tandis que des textes tels que « Pas de problème » sont classés comme des sentiments négatifs, même si ceux-ci sont neutres dans un contexte financier. Ces erreurs peuvent être atténuées par un réglage fin ou en utilisant des techniques de prompting plus avancées avec des LLM plus récents tels que GPT-4, qui peut mieux interpréter les nuances subtiles7.
Alors que les exemples précédents étaient basés sur des phrases courtes, nous nous tournons maintenant vers une approche plus évolutive de l’analyse des sentiments, adaptée aux documents financiers plus longs, à savoir les « sentiments nets », qui fonctionne pour des documents de toute longueur. Pour calculer le sentiment net, un document est d’abord divisé en segments. Le sentiment est ensuite évalué individuellement pour chaque segment. Les résultats sont agrégés en comparant le nombre de segments à tonalité positive à ceux à tonalité négative, ce qui permet d’obtenir un score global de sentiment net.8
Sur la base de ce score de sentiment net, nous avons fait une autre observation qui pourrait remettre en question la capacité de FinBERT à détecter avec précision le sentiment au niveau des entreprises individuelles. Bien que le modèle ait pu identifier un sentiment négatif pendant la pandémie de COVID-19 (comme le montre la zone grise du graphique ci-dessous), il est important de noter que certains secteurs affichent systématiquement un sentiment plus positif que d’autres. Par exemple, les services de communication (ligne jaune dans le graphique ci-dessous) et les technologies de l’information (ligne orange) affichent toujours un sentiment plus positif que les matériaux (ligne violette). Ce biais sectoriel peut nécessiter des ajustements supplémentaires à un stade ultérieur du processus d’investissement, en particulier pour les investisseurs qui préfèrent éviter les expositions spécifiques à un secteur car ils estiment que ces risques ne sont pas compensés à long terme.
Se fier uniquement à des modèles prêts à l’emploi présente des inconvénients, qui peuvent être regroupées en deux problèmes principaux :
- Problème n° 1 : au début, la plupart des recherches en NLP étaient menées dans des institutions universitaires, mais au fil du temps, les grandes entreprises ont pris le relais. Ce changement soulève des questions sur laconformité, la propriété et la confidentialité des données et les droits d’auteur, qui sont des points fondamentaux dans le secteur financier, fortement réglementé.
- Problème n° 2 : en outre, ces modèles continuent de gagner en taille et en complexité. Cependant, comme le souligne l’article de Chinchilla9, le simple fait d’augmenter la taille des modèles sans augmenter proportionnellement la quantité de données d’entraînement de haute qualité conduit à une diminution des rendements. Pour nos applications financières propriétaires, il se peut qu’il n’y ait pas suffisamment de données spécifiques au domaine pour exploiter pleinement et efficacement ces modèles massifs.
Par conséquent, les modèles prêts à l’emploi ne sont peut-être pas le meilleur choix pour répondre à nos besoins spécifiques. Pour garder le contrôle sur la gouvernance des données et optimiser les performances des modèles dans le contexte financier, nous devons mener nos propres recherches et développer des modèles de transformateurs personnalisés adaptés à notre stratégie.
Illustration 1 : Sentiment net moyen des secteurs GICS
Source : Allianz Global Investors, équipe Systematic Equity. Données au 30/06/2024. Back-test. Veuillez-vous reporter aux informations relatives aux « Backtestset données de performance hypothétiques ou simulées » à la dernière page du présent document. Les performances hypothétiques et les simulationsprésentées sont fournies à titre indicatif uniquement et ne reflètent pas les performances réelles ; elles ne prévoient pas les rendements futurs. Veuillezconsulter les informations importantes concernant back-testings et données de performance hypothétiques ou simulées à la fin du présent document. Àtitre indicatif uniquement, ces données ne représentent pas la performance réelle d’un compte client. Ces informations ne doivent pas être considéréescomme un indicateur des résultats futurs.
Pour y parvenir, nous avons personnalisé le modèle FinBERT spécifiquement à nos cas d’utilisation, en veillant à ce qu’il soit mieux adapté aux exigences uniques de notre processus d’investissement. Nous avons ensuite mené une simulation complète à l’aide des signaux de sentiment générés par notre modèle FinBERT personnalisé. Le résultat de
notre backtest était encourageant : la stratégie simulée a atteint un ratio d’information d’environ 0,6 (avant frais) par rapport à l’indice S&P 500 (comme indiqué ci-dessous). Cela démontre que le sentiment évalué par une machine, lorsqu’il est correctement calibré et intégré dans un cadre d’investissement rigoureux, peut contribuer de manière significative à la performance du portefeuille.
Bien que ces résultats soient prometteurs, nous en attendons d’autres. Jusqu’à présent, cet article s’est concentré uniquement sur le sentiment. Cependant, le potentiel des LLM va bien au-delà de l’analyse du sentiment. Ces modèles sont capables d’effectuer des tâches plus sophistiquées, telles que la compréhension des relations causales, voire le raisonnement. À mesure que les LLM continuent d’évoluer, nous voyons des opportunités passionnantes d’exploiter leurs capacités pour obtenir des informations plus approfondies et des analyses plus sophistiquées.
Illustration 2 : Performance relative cumulée de notre signal personnalisé basé sur BERT
Source : Allianz Global Investors, équipe Systematic Equity. Données au 30/06/2024. Back-test. Veuillez-vous reporter aux informations relatives aux « Backtestset données de performance hypothétiques ou simulées » à la dernière page du présent document. Les performances hypothétiques et les simulationsprésentées sont fournies à titre indicatif uniquement et ne reflètent pas les performances réelles ; elles ne prévoient pas les rendements futurs. Veuillezconsulter les informations importantes concernant back-testings et données de performance hypothétiques ou simulées à la fin du présent document. Àtitre indicatif uniquement, ces données ne représentent pas la performance réelle d’un compte client. Ces informations ne doivent pas être considéréescomme un indicateur des résultats futurs.
Les LLM peuvent-ilsremplacer les analystes ?Probablement pas !
Sur la base des résultats prometteurs de notre stratégie fondée sur le sentiment, nous sommes allés plus loin et nous sommes demandé : cette technologie pourrait-elle à terme
remplacer un analyste financier ?
L’une des fonctions essentielles de l’analyse fondamentale consiste à élaborer des modèles d’évaluation à partir des données issues des bilans et des tableaux de flux de trésorerie.
Traditionnellement, cela nécessite des analystes qualifiés pour interpréter et contextualiser les fondamentaux des entreprises. Afin de tester si les LLM pouvaient être utiles dans ce
domaine, nous avons utilisé le modèle GPT-4 d’OpenAI via l’API OpenAI, traitant en parallèle les rapports de milliers d’entreprises.
Nos expériences ont montré que les LLM peuvent effectivement extraire des chiffres clés, calculer des ratios et résumer les grandes tendances avec fiabilité. Cela correspond à
des recherches telles que l’article de Chicago Booth10, qui démontre que les LLM peuvent ingérer des tableaux de flux de trésorerie et des bilans pour évaluer l’amélioration future des bénéfices.
Cependant, des études récentes soulignent les limites des modèles de raisonnement actuels. Shojaee et al. (2025)11 ont examiné de manière systématique les capacités des grands
modèles de raisonnement et ont constaté qu’ils perdaient en précision et en cohérence au-delà d’un certain niveau de complexité. Si les LLM excellent dans la reconnaissance de
modèles généraux et peuvent générer des raisonnements et des chaînes analytiques convaincants pour des tâches simples, leur raisonnement computationnel se détériore pour les
problèmes nuancés et très complexes, tels que ceux fréquemment rencontrés dans l’analyse complète des actions. L’étude montre en outre que ces modèles ne parviennent souvent pas à utiliser des algorithmes explicites et peuvent produire des explications incohérentes lorsqu’ils sont confrontés à des scénarios complexes.
Cela suggère que, bien que les LLM puissent extraire des chiffres, identifier des tendances, calculer des ratios et fournir des points de départ analytiques de manière fiable, ils ne sont pas encore capables de reproduire entièrement la profondeur, la logique et la rigueur d’un analyste humain expérimenté, en particulier lorsque la situation financière exige un jugement nuancé ou l’élaboration de justifications d’investissement sur mesure. Dans la pratique, les LLM doivent être considérés comme un outil d’aide, mais leurs résultats doivent toujours être examinés et interprétés avec soin par des investisseurs professionnels expérimentés.
Par conséquent, selon nous, l’expertise, le raisonnement critique et l’intuition de l’analyste humain restent indispensables pour traduire l’analyse computationnelle en décisions d’investissement de la plus haute qualité.
Conclusion
En résumé, cet article a montré comment l’évolution du traitement du langage naturel – des premiers modèles d’intégration de mots comme GloVe aux aux modèles de transformateurs avancés tels que FinBERT – est en train de remodeler le paysage de la finance quantitative. En allant au-delà des approches statiques et hors contexte pour adopter des modèles qui comprennent le langage dans son contexte, nous avons pu extraire des informations exploitables à partir de données financières non structurées.
Notre expérience démontre que les modèles prêts à l’emploi, bien que puissants, ne répondent souvent pas aux exigences spécifiques de l’analyse financière, en particulier en ce qui concerne les biais sectoriels, la conformité et la confidentialité des données. En développant et en adaptant nos propres modèles, nous avons considérablement amélioré notre analyse des sentiments, comme le prouve la simulation qui a surpassé le S&P 500 sur une base sectorielle neutre.
À mesure que ces technologies continuent de progresser, nous continuerons à nous concentrer sur le perfectionnement de nos modèles, l’intégration de nouvelles capacités et l’application responsable des informations issues de l’IA à nos stratégies d’actions systématiques telles que Best Styles et Powered by AI. En fin de compte, la combinaison d’une IA spécifique à un domaine et de l’expertise humaine nous place en bonne position pour décoder plus efficacement les récits financiers et découvrir de nouvelles sources de valeur sur des marchés en constante évolution.
1 Malédiction de la dimensionnalité : ce terme fait référence aux divers défis et complications qui surviennent lors de l’analyse et de l’organisation de données dans des espaces à haute dimensionnalité (souvent des centaines ou des milliers de dimensions). Dans le domaine de l’apprentissage automatique, il est essentiel de comprendre ce concept, car à mesure que le nombre de caractéristiques ou de dimensions d’un ensemble de données augmente, la quantité de données dont nous avons besoin pour généraliser avec précision croît de manière exponentielle. Source :
https://www.datacamp.com/blog/curse-of-dimensionality-machine-learning
2 https://www.jmlr.org/papers/volume3/bengio03a/bengio03a.pdf
3 GloVe: Global Vectors for Word Representation. https://nlp.stanford.edu/projects/glove/
4 Vaswani, A., et al. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30. arXiv:1706.03762
5 https://arxiv.org/abs/2303.17564
6 Huang, Allen H., Hui Wang, and Yi Yang. « FinBERT : un modèle linguistique à grande échelle pour extraire des informations à partir de textes
financiers ». Contemporary Accounting Research (2022). https://doi.org/10.1111/1911-3846.12832
7 https://arxiv.org/html/2306.02136v2
8 Le sentiment net est calculé comme suit : log [(1+nombre de phrases positives) / (1+ nombre de phrases négatives)]. Cette formulation
logarithmique permet de lisser les valeurs extrêmes et garantit que la métrique est définie même en l’absence de segments positifs ou négatifs.
9 https://doi.org/10.48550/arXiv.2203.15556
10 Kim, A., et al. (2024). Analyse des états financiers avec les LLM. arXiv:2407.17866
11 Shojaee et al. (2025). L’illusion de la pensée : comprendre les forces et les limites des modèles de raisonnement à travers le prisme de la complexité
des problèmes https://doi.org/10.48550/arXiv.2506.06941