Tribune

« Considérer que les entrepôts de données de santé de soins seront les principaux pourvoyeurs de données indispensables au cycle de vie du médicament est en partie un leurre, et leur potentiel de valorisation ne doit pas être surestimé »

Stéphane Barritault
Secrétaire Général de l’IHU ICAN

Signe de l’importance accordée par les acteurs de l’industrie pharmaceutique aux outils fondés sur les algorithmes d’intelligence artificielle (IA) et des espoirs qui sont placés dans ces nouvelles technologies, Sanofi a annoncé en juin dernier vouloir réduire de moitié le délai entre la découverte d’une molécule et son administration au patient grâce à l’IA. Le laboratoire pharmaceutique français est désormais au 5e rang du nouveau classement international « Pharma AI Readiness Index » de la plateforme d’intelligence économique CB Insights1, qui mesure la capacité des industriels du médicament à attirer les meilleurs talents en IA, à mener des projets d’IA et à investir pour innover.

Il n’est désormais plus contestable que l’IA va prendre une place majeure dans l’industrie pharmaceutique avec une vitesse de croissance exponentielle. Elle intervient déjà, intégrée dans un nombre foisonnant de logiciels plus ou moins matures, à toutes les étapes du cycle de développement du médicament : de la recherche fondamentale sur les cibles thérapeutiques et le screening de molécules jusqu’aux études post-AMM (Phase IV), à l’optimisation de la dispensation et au renforcement de la pharmacovigilance. Le déploiement d’outils basés sur l’IA promet d’accélérer les temps de développement de médicaments ainsi que de réduire le risque considérable d’échec (moins de 8% des médicaments en phase 1 ont obtenu une AMM sur la période 2011-20202).

Cette révolution doit amener les principaux acteurs hospitaliers français de la recherche en santé, qui investissent depuis plusieurs années dans la constitution d’entrepôts de données de santé alimentés par les données qui figurent dans le dossier médical et administratif (que nous qualifierons dans cet article d’« EDS de soin »), avec le soutien actif du gouvernement3, à s’interroger sur la réelle valeur ajoutée de ces bases de données pour les acteurs du médicament.

La constitution d’un EDS de soin semble, en première approche, une réponse pertinente au besoin de rendre plus facilement accessibles les données issues du soin, et ainsi de permettre aux établissements hospitaliers de mieux les valoriser – y compris financièrement. Si ces données collectées à partir des systèmes d’information hospitaliers ont leur importance, elles demeureront cependant structurellement insuffisantes.

En effet, ces données issues du soin, hétérogènes et non structurées, présentent deux écueils majeurs limitant leur pertinence pour les outils IA utilisés par les industriels du médicament : 1. l’évaluation de la balance bénéfice-risque dans le cadre d’une demande d’AMM doit s’appuyer sur des données de qualité « recherche » et 2. les données collectées sont limitées aux seuls examens réalisés dans la prise en charge courante, et non ceux additionnels prévus par un protocole de recherche.

1. Les données issues des EDS de soin ne peuvent, à priori, servir que pour les algorithmes n’ayant pas d’impact sur l’évaluation de la balance bénéfice-risque du médicament

Les agences de régulation du médicament portent une attention particulière aux algorithmes qui ont un impact, y compris potentiel, sur le bénéfice-risque du médicament4. Les outils IA utilisés pour le développement d’un médicament peuvent ainsi être répartis en deux grandes catégories, selon qu’ils impactent ou non la balance bénéfice-risque.

Si cette appréciation doit être faite au cas par cas, les outils IA qui visent à identifier de nouvelles cibles thérapeutiques, à créer de nouvelles entités thérapeutiques (aide au criblage, génération in silico) ou encore à prédire la « réponse » patient et identifier des populations-cibles, sont généralement sans impact sur la balance bénéfice-risque. Les autorités compétentes chargées de la délivrance des autorisations de mise sur le marché (EMA, FDA, MHRA, …) n’ont pas besoin de contrôler l’utilisation de ces outils.

À l’inverse, dès lors qu’un algorithme d’IA a un impact potentiel sur l’évaluation de la balance bénéfice-risque, il sera soumis à l’évaluation rigoureuse des autorités de régulation et d’évaluation du médicament. Ce sera le cas si des outils d’IA ont été utilisés pour évaluer l’efficacité ou la sécurité du médicament (par exemple : études cliniques in silico comprenant un ou plusieurs bras synthétiques générés par IA, identification précoce assistée par IA de signaux de sécurité et d’efficacité).

L’évaluation de la balance bénéfice-risque des médicaments par les autorités compétentes comprendra également l’évaluation des données ayant permis de les entraîner. D’où viennent ces jeux de données ? Quelle est leur robustesse, leur fiabilité, leur exhaustivité ? Quels sont leurs biais ? Répondre à ces questions nécessite que ces jeux de données soient d’une qualité au moins comparable à celles générées dans le cadre de la recherche (études cliniques). Hormis quelques rares exceptions, les données contenues dans les EDS de soin ne répondront pas à ce niveau d’exigence, ce qui limite fortement leur valeur.

2. La profondeur et l’étendue des données contenues dans les EDS de soin resteront limitées par rapport aux données générées dans le cadre de la recherche

L’identification de nouveaux biomarqueurs et de cibles biologiques inexploitées qui a été déterminante pour nombre d’avancées thérapeutiques, repose en grande partie sur l’exploitation de données plus riches que celles générées dans le cadre de la prise en charge courante, et qui sont donc en grande partie absentes des EDS de soins.

Ainsi, par exemple, les données issues d’appareils de mesure et d’imagerie (IRM, Scanner, OCT, …) ne sont parfois remontées dans les EDS de soins que sous la forme de comptes-rendus d’examens ou de rapports numérisés (ECG, EET). Certains EDS de soin sont interconnectés aux PACS hospitaliers, permettant de disposer d’une copie des fichiers sources (par exemple les fichiers DICOM d’IRM, de scanner ou d’échographie), incluant dans certains cas une première analyse de biomarqueurs utiles au soin (par exemple des mesures de taille et surface en échographie).

Identifier de nouveaux biomarqueurs d’imagerie, source critique de données pour les algorithmes IA utilisés par l’industrie pharmaceutique, nécessite alors un post-traitement des fichiers sources, intégrant les opérations de pseudonymisation, labélisation, annotation et segmentation, opérations qui requièrent le déploiement de ressources regroupées dans des « Corelab » experts (logiciels de post traitement, ingénieurs d’analyse, PACS recherche).

De plus, les protocoles de recherche permettent de collecter des données qui ne relèvent pas de la pratique courante. Or, celles-ci peuvent s’avérer déterminantes pour permettre aux algorithmes d’IA d’aider à l’identification de nouveaux scores de risque ou à mieux stratifier les patients – deux aspects pourtant critiques pour le développement de médicaments. Ainsi, les examens de phénotypage de pointe (métabolomique, lipidomique, transcriptomique, épigénomique, métagénomique, …) sont rarement réalisés dans le cadre de la prise en charge courante des patients, excluant des EDS de soins tout un pan de données parfois cruciales à la recherche de nouvelles solutions thérapeutiques.

Considérer que les EDS de soins seront les principaux pourvoyeurs de données indispensables au cycle de vie du médicament est en partie un leurre, et leur potentiel de valorisation ne doit pas être surestimé. Avec l’explosion des applications de l’IA, les principaux fournisseurs de données de santé que sont les établissements hospitaliers ne peuvent pas faire l’économie d’une véritable réflexion sur la structuration des données issues de la recherche, par exemple en menant une politique active visant à constituer aussi des EDS issus de projets de recherche.

1. Rapport CBINSIGHTS « Pharma AI Readiness Index: Who’s best-positioned for the AI boom? » .

2. Rapport de l’association internationale des acteurs de la biotechnologie BIO.ORG “Clinical Development Success Rates and Contributing Factors 2011–2020” (2021).

3. On peut également noter les deux phases de l’appel à projet « Accompagnement et soutien à la constitution d’entrepôts de données de santé hospitaliers » lancé en 2022 dans le cadre de France 2030, et doté de 75 millions d’euros.

4. Pour une présentation plus détaillée de ce concept : “Reflection paper on the use of Artificial Intelligence (AI) in the medicinal product lifecycle” publié le 13 Juillet 2023 par l’Agence européenne du médicament.