IA et Finance Durable – PHASE II

Direction

Chercheurs

Partenaires

L OBVIA, Fin-ML et Algora Lab réalisent ensemble la PHASE II du projet « IA et Finance Durable »

Développement d’une application de recherche en traitement automatique de langage naturel pour l’évaluation de plans de transition corporatifs

Pour faite suite à une étude des modèles d’IA qui permettent d’accélérer la transition écologique et qui répondent aux exigeances de la finance durable (tel que les facteurs ESG), une application basée sur les modèles de langage a été identifiée.

Dans cette seconde phase du projet, ce modèle est entrainé pour la vérification de faits, afin d’évaluer, de manière automatique, les plans de transition des entreprises et de corroborer leurs divulgations environnementales. Une approche qui vise la transparence pour le milieu de la finance, notamment pour les investisseurs et qui prévient l’écoblanchiment lié aux divulgations.

L’implémentation du modèle nécessite:

    1. la collecte de données des plans de transition corporatifs;
    2. une labellisation des extraits pertinents;
    3. une modélisation de la vérification de faits;
    4. l’entrainenment des algorithmes;
    5. l’évaluation de la performance du modèle.

L’architecture utilisée sera le Retrieval Augmented Generation (RAG), considérée comme l’état de l’art pour la vérification de faits, le modèle combine différents composants basés sur les transformers pour récupérer les preuves dans un large corpus de documents et autre composant, capable de générer une réponse précise en fonction des preuves trouvées.

Le but principal de cette application est d’accompagner les investisseurs dans leurs prises de décision en lien avec la transition des entreprises. Afin d’atteindre les objectifs nécessaires pour combattre le changement climatique, une réallocation profonde du capital d’investissement doit avoir lieu rapidement (voir Pörtner et al., 2022). Or, à la lumière de notre analyse de l’écosystème de la finance durable, on remarque un fossé informationnel entre les entreprises et les investisseurs, qui freine l’allocation de capital nécessaire à la transition.

Ce fossé peut s’expliquer par un manque de régulation en amont entrainant une discordance des cadres en aval. Ce manque d’harmonisation complexifie et élève la barrière à l’entrée pour les entreprises qui veulent commencer leurs efforts de divulgation, en diminuant le nombre de divulgations volontaires disponibles (voir Bartlett et al., 2022). Pour pallier ce manque d’information, les investisseurs doivent recourir à des sources de données alternatives (presse financière, réseaux sociaux et autres informations de tierce partie) obtenues via des fournisseurs de données intermédiaires qui centralisent ces données.

Le modèle économique de ces fournisseurs repose sur les données collectées, ainsi que l’analyse de cette information. Les fournisseurs construisent alors, des indices financiers par rapport à la performance des entreprises dans leur transition écologique. C’est pourquoi, les méthodologies de collecte et d’analyse sont souvent opaques et parfois inconsistantes d’un fournisseur à l’autre, ce qui empêche d’établir une réelle comparabilité des entreprises présentes dans l’écosystème (voir Berg et al., 2019).

Notre application vise donc, à aider les investisseurs à naviguer plus facilement au sein de cet écosystème, en centralisant l’information et en l’évaluant de manière automatique (Kheradmand et al., 2021). Pour ce faire, un modèle de récupération de texte et de traitement automatique de langage naturel a été entrainé pour extraire les rapports corporatifs en lien avec la divulgation climatique et pour évaluer l’information contenue sous le prisme d’un cadre de divulgation donné.

De plus, notre solution pourra être utilisée par les entreprises désireuses d’obtenir un retour sur leur propre plan de transition, avant de le divulguer publiquement, ou pour toute personne désirant analyser le plan de transition d’une entreprise. Des exemples d’utilisation seront fournis dans le rapport de projet.

Ce projet fait suite à une précédente publication de nos chercheurs sur un modèle d’analyse de l’alignement de divulgations climatique au cadre de SASB.

LEXIQUE

Écoblanchiment: Opération de relations publiques menée par une organisation pour masquer ses activités polluantes et tenter de présenter un caractère écoresponsable (synonymes : mascarade écologique, blanchiment vert, verdissement d’image, greenwashing).

ESG: Environnemental, Social, Governance, Utilisation de ces facteurs pour évaluer les entreprises et les pays en fonction de leur degré d’avancement en matière de développement durable.

Labellisation: Ou l’étiquetage des données consiste à annoter des données pour entraîner un modèle d’intelligence artificielle à produire des annotations similaires.

Tokens: Les tokens sont les unités de base de texte ou de code qu’une IA utilise pour traiter et générer un langage. Les tokens peuvent être des caractères, des mots, des sous-mots ou d’autres segments de texte ou de code, selon la méthode ou le schéma de tokenisation choisi.

Transformers: Un transformer est un modèle d’apprentissage profond, qui s’appuie sur le mécanisme de l’attention. Le modèle prend des entrées tokenisés (les tokens) et, à chaque couche, contextualise chaque tokens avec d’autres tokens d’entrée (non masqués) en parallèle via un mécanisme d’attention. Le modèle GPT est un transfomer. Les transfomers pré-formés génératifs (GPT) sont un type de grand modèle de langage (LLM) et un cadre important pour l’intelligence artificielle générative.

Retrieval Augmented Generation: Le modèle RAG prend une entrée et récupère un ensemble de documents pertinents en fonction d’une source web.

Vérification de faits: La vérification des faits peut être automatisée, en utilisant le traitement du langage naturel, l’apprentissage automatique, la représentation des connaissances et des bases de données, pour prédire automatiquement la véracité des affirmations.