Deep Purpose : Une bibliothèque d’apprentissage profond pour la prédiction des interactions entre médicaments et cibles

traduction3

Deep Purpose : Une bibliothèque d’apprentissage profond pour la prédiction des interactions entre médicaments et cibles

Kexin Huang’, Tianfan Fu’, Lucas M. Glass3, Marinka Zitnikl, Cao Xiao3, andJimeng Suna

Bioinformatics, Volume 36, Numéro 22-23, 1er décembre 2020, Pages 5545-

5547, https://doi.org/10.1093/bioinformatics/btaa1005

Publié le : 12 décembre 2020

Résumé

La prédiction précise des interactions entre les médicaments et leurs cibles (DTI) est cruciale pour la découverte de médicaments. Récemment, les modèles d’apprentissage profond DL) pour montrer des performances prometteuses pour la prédiction des DTI. Cependant, ces modèles peuvent être difficiles à Cependant, ces modèles peuvent être difficiles à utiliser à la fois pour les informaticiens qui entrent dans le domaine biomédical et pour les bioinformaticiens ayant une expérience limitée de l’apprentissage profond. limitée. Nous présentons DeepPurpose, une bibliothèque DL complète et facile à utiliser pour la prédiction DTI.

DeepPurpose prend en charge la formation de modèles de prédiction DTI personnalisés en mettant en œuvre 15 codeurs de composés et de protéines et plus de 50 codeurs neuronaux. protéines et plus de 50 architectures neuronales, ainsi que de nombreuses autres fonctionnalités utiles. Nous démontrons les performances de pointe de DeepPurpose sur plusieurs ensembles de données de référence.

Disponibilité et mise en œuvre

https://github.com/kexinhuang12345/DeepPurpose.

Informations complémentaires

Des données supplémentaires sont disponibles sur Bioinformatics online.

Section thématique : EXPLORATION DE DONNÉES ET DE TEXTES

Rédacteur adjoint : Jonathan Wren

1-lntroduction

Les interactions médicament-cible (IDC) caractérisent la liaison des composés aux cibles protéiques (Santos et al., 2017).

L’identification précise des cibles moléculaires des médicaments est fondamentale pour la découverte et le développement de médicaments (Rutkowska et al., 2016 ; Zitnik et al., 2019) et est particulièrement importante pour trouver des traitements efficaces et sûrs contre de nouveaux agents pathogènes, notamment le SRAS-CoV-2 (Velavan et Meyer, 2020).

L’apprentissage profond (DL) a fait progresser la modélisation informatique traditionnelle des composés en offrant un pouvoir expressif accru dans l’identification, le traitement et l’extrapolation de modèles complexes dans les molécules[Ozturk et al ,2018, Lee et al ,2019].Il existe de nombreux modèles DL conçus pour la prédiction de l’ITD [Ozturk et al ,2018, Lee et al ,2019,Nguyen et al .2020] . Cependant, pour générer des prédictions, déployer des modèles DL dans la pratique, tester et évaluer les performances des modèles, il faut des compétences considérables en programmation et des connaissances approfondies en biochimie. Les outils prédominants sont conçus pour des chercheurs interdisciplinaires expérimentés. Ils sont difficiles à utiliser tant pour les informaticiens qui entrent dans le domaine biomédical que pour les bio-informaticiens de domaine ayant une expérience limitée de la formation et du déploiement de modèles DL. En outre, chaque outil en libre accès possède une interface de programmation différente et est codé différemment, ce qui empêche une intégration facile des sorties de diverses méthodes pour les ensembles de modèles (Yang et al., 2019).

Ici, nous présentons DeepPurpose, une bibliothèque DL pour le codage et la prédiction en aval des protéines et des composés.

Deep Purpose permet un prototypage rapide via un cadre de programmation qui met en œuvre plus de 50 modèles DL, sept encodeurs de protéines et huit encodeurs de composés. Sept codeurs de protéines et huit codeurs de composés. Empiriquement, nous constatons que les modèles mis en œuvre dans Deep Purpose atteignent des performances de prédiction de pointe sur les ensembles de données de référence DTI.

2-Bibliothèque Deep Purpose

Les modèles DL pour la prédiction de l’ITD peuvent être formulés comme des architectures codeur-décodeur (Cho et al., 2014).

La bibliothèque Deep Purpose met en œuvre un cadre unifié d’encodeur-décodeur, ce qui lui confère une flexibilité unique.

En spécifiant simplement le nom d’un codeur, l’utilisateur peut automatiquement connecter un codeur d’intérêt avec le décodeur approprié. Deep Purpose entraîne ensuite le modèle codeur-décodeur correspondant de bout en bout.

Enfin, l’utilisateur accède au modèle formé, soit par programme, soit via une interface visuelle, et utilise le modèle pour la prédiction de l’ITD.

2-1 Module d’encodage des protéines et des composés

Deep Purpose prend en entrée la chaîne SMILES (simplified molecular-input line-entry system) du composé et la paire de séquences d’acides aminés de la protéine. Ils sont ensuite introduits dans des codeurs moléculaires qui spécifient une fonction de transformation profonde qui fait correspondre les composés et les protéines à une représentation vectorielle. En particulier, pour les composés, Deep Purpose fournit huit encodeurs utilisant différentes modalités de composés : Perceptrons multicouches (MLP) sur les empreintes digitales 2D de Morgan, PubChem, Daylight et RDKit ; réseau neuronal convolutif (CNN) sur les chaînes SMILES ; réseau neuronal récurrent (RNN) au-dessus du CNN ; encodeurs de transformation sur les empreintes digitales de sous-structure ; réseau neuronal de graphe à passage de message sur le graphe moléculaire.

Pour les protéines, Deep Purpose fournit sept codeurs pour la séquence d’acides aminés d’entrée : MLP sur les descripteurs de composition d’acides aminés (CAA), de pseudo CAA, de triade conjointe et de quasi-séquence ; CNN sur les séquences d’acides aminés ; RNN au-dessus de CNN ; codeur transformateur sur les empreintes de sous-structure.

Notez que des caractéristiques d’entrée alternatives peuvent ne pas fonctionner pour une architecture de codeur spécifique. Les spécifications détaillées de l’encodeur et les références sont décrites dans le matériel supplémentaire.

2-2 Module pour la prédiction de l’ITD

Deep Purpose alimente les protéines et les composés appris dans un décodeur MLP pour générer des prédictions. Les scores de sortie comprennent à la fois des scores de liaison continus, tels que la concentration inhibitrice médiane ( IC 50IC 50), ainsi que des sorties binaires indiquant si une protéine ou un composé a une interaction avec la cible. ainsi que des sorties binaires indiquant si une protéine se lie à un composé. La bibliothèque détecte si la tâche est régression ou de classification et passe à la fonction de perte et aux mesures d’évaluation correctes. Dans le cas de la régression nous utilisons l’erreur quadratique moyenne (EQM) comme fonction de perte et l’EQM, l’indice de concordance et la corrélation de Pearson comme mesures de performance métriques. Dans le cas de la classification, nous utilisons l’entropie croisée binaire comme fonction de perte et l’Area Under l’AUROC (Receiver Operating Characteristics), l’AUPRC (Area Under Precision-Recall) et le score F-1. Mesure de la performance. Lors de l’inférence, étant donné de nouvelles protéines et de nouveaux composés, Deep Purpose renvoie des scores de prédiction représentant les probabilités prédites de liaison entre les composés et les protéines.

2-3 Modules pour d’autres tâches de prédiction en aval

Deep Purpose comprend des fonctions de repurposing et de virtual_screening. En utilisant seulement quelques lignes de codes qui spécifient une liste de bibliothèques de composés à cribler et un ensemble optionnel de données d’entraînement, Deep Purpose entraîne cinq modèles DL l’agrégation des résultats de prédiction et la génération d’une liste descriptive classée dans laquelle les composés candidats ayant les scores de liaison les plus élevés sont placés en tête de liste. Si l’utilisateur ne spécifie pas d’ensemble de données d’entraînement, Deep Purpose utilise un modèle profond pré-entraîné pour la prédiction. Cette liste peut ensuite être examinée afin d’identifier les composés candidats prometteurs pour de nouvelles expériences. Deuxièmement, Deep Purpose prend également en charge des cadres de programmation conviviaux pour d’autres tâches de modélisation, notamment la modélisation de médicaments et de produits chimiques. D’autres tâches de modélisation, notamment la prédiction des propriétés des médicaments et des protéines, la prédiction des interactions médicament-médicament et la prédiction des interactions protéine-protéine (voir Supplementary Material). Troisièmement, Deep Purpose offre une interface avec de nombreux types de données, notamment un grand ensemble public de données sur l’affinité de liaison (Liu et al., 2007), des données d’essais biologiques (Kim et al., 2019) et une bibliothèque de reprogrammation de médicaments (Corsello et al., 2017).

2.4 Cadre de programmation et détails de mise en œuvre

La fonctionnalité de DeepPurpose est modularisée en six étapes clés où une seule ligne de code peut invoquer chaque étape :

(i) Charger le jeu de données à partir d’un fichier local ou charger un jeu de données de référence Deep Purpose.

(ii) Spécifier les noms des composés et des encodeurs de protéines. (iii) Divisez l’ensemble de données en ensembles de formation, de validation et de test à l’aide de la fonction data process, qui met en œuvre une variété de stratégies de division des données. (iv) Créez un fichier de configuration et spécifiez les paramètres du modèle. Si Si nécessaire, Deep Purpose peut rechercher automatiquement les valeurs optimales des hyperparamètres. (v) Initialiser un modèle en utilisant le fichier de configuration. L’utilisateur peut également charger un modèle pré-entraîné ou un modèle précédemment enregistré. (vi) Enfin former le modèle à l’aide de la fonction train et surveiller la progression de la formation et les mesures de performance. Deep Purpose est OS-agnostique et utilise l’interface Jupyter Notebook.

Il peut être exécuté dans le nuage ou localement. Tous les jeux de données, modèles, documentation, instructions d’installation et tutoriels sont fournis, documentation, les instructions d’installation et les didacticiels sont fournis à l’adresse https://github.com/kexinhuang12345/DeepPurpose.

3-Utilisation de Deep Purpose pour la prédiction DTI

Pour démontrer l’utilisation de Deep Purpose, nous le comparons à KronRLS (Pahikkala et al., 2015), une méthode populaire de DTI, et à Graph DTA (Nguyen et al., 2020) et Deep DTA (Öztürk et al., 2018), des méthodes DL de pointe. Nous constatons que de nombreux modèles Deep Purpose atteignent des performances de prédiction comparables sur deux jeux de données de référence, DAVIS (DAVIS et al, 2011) et KIBA (He et al., 2017) (Fig. 1D). Un script complet pour générer les résultats est fourni dans des documents complémentaires.

Fig. 1..

Vue d’ensemble de la bibliothèque Deep Purpose. (A) Deep Purpose prend en entrée les SMILES d’un composé et la séquence d’acides aminés d’une protéine et la séquence d’acides aminés d’une protéine, puis génère des enchâssements pour ceux-ci. (B) Les enchâssements appris sont ensuite concaténés et introduits dans un décodeur pour prédire l’affinité de liaison DTI. (C) Deep Purpose fournit un cadre de cadre de programmation simple mais flexible qui met en œuvre plus de 50 modèles DL de pointe pour la prédiction de l’ITD.

Pour la prédiction des DTI. (D) Les modèles Deep Purpose obtiennent des performances comparables à celles de trois autres algorithmes de prédiction de l’ITD sur deux ensembles de données de référence. (E) Enfin, Deep Purpose offre de nombreuses fonctionnalités, notamment le suivi du processus de formation, le débogage et la génération de listes classées pour la réaffectation et le criblage.

En outre, Deep Purpose prend en charge d’autres tâches de prédiction en aval (par exemple, la prédiction des interactions médicamenteuses, prédiction des propriétés des composés).

4 Deep Purpose avec interface web interactive

Outre le prototypage rapide de modèles, DeepPurpose fournit également des fonctions utilitaires permettant de charger un modèle pré-entraîné et de faire des prédictions pour un nouveau médicament et des cibles.

Faire des prédictions pour un nouveau médicament et des entrées cibles. Cette fonctionnalité permet aux spécialistes du domaine d’examiner d’examiner rapidement les prédictions, de modifier les entrées en fonction des prédictions et d’itérer le processus jusqu’à ce qu’ils trouvent un médicament ou une cible présentant les propriétés souhaitées. ayant les propriétés souhaitées. Nous nous appuyons sur Gradio (Abid et al., 2019) pour créer une interface web de manière programmatique. Nous utilisons un modèle DeepPurpose entraîné par l’utilisateur dans le backend et créons une interface web personnalisée en moins de dix lignes de code. Cette interface web interface web prend les SMILES et la séquence d’acides aminés en entrée et renvoie les scores de prédiction avec une latence de moins de 1-seconde.

Nous fournissons des exemples dans les documents complémentaires.

Soutien financier : aucun M.Z.M. et K.H. déclarés sont soutenus, en partie, par les subventions NSF n° IIS-2030459 et IIS- 2033384, et par la Harvard Data Science Initiative. T.F. et J.S. ont été soutenus en partie par les subventions NSF SCH-2014438, IIS-1418511, CCF-1533768, IIS-1838042, la bourse NIH R01 1R01NS107291-01 et R56HL138415.

Conflit d’intérêts : aucun n’a été déclaré.

Références
Abid A. et al. (2019) Gradio: Hassle-free sharing and testing of ml models in the wild. arXiv preprint
arXiv : 1906.02569.
Cho K. et al. (2014) On the properties of neural machine translation: encoder–decoder approaches.
In: Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation at ACL., Doha, Qatar,
pp. 103–111.
Corsello S.M. et al. (2017) The drug repurposing hub: a next-generation drug library and information
resource. Nat. Med., 23, 405–408.
Davis M.I. et al. (2011) Comprehensive analysis of kinase inhibitor selectivity. Nat.
Biotechnol
., 29, 1046–1051.
He T. et al. (2017) SimBoost: a read-across approach for predicting drug–target binding affinities using
gradient boosting machines. J. Cheminf., 9, 24.
Kim S. et al. (2019) Pubchem 2019 update: improved access to chemical data. Nucleic Acids
Res
., 47, D1102–D1109.
Lee I. et al. (2019) DeepConv-DTI: prediction of drug–target interactions via deep learning with
convolution on protein sequences. PLOS Comput. Biol., 15, e1007129.
Liu T. et al. (2007) BindingDB: a web-accessible database of experimentally determined protein–ligand
binding affinities. Nucleic Acids Res., 35, D198–D201.
Nguyen T. et al. (2020) GraphDTA: Predicting drug–target binding affinity with graph neural
networks. bioRxiv.
Öztürk H. et al. (2018) DeepDTA: deep drug–target binding affinity prediction. Bioinformatics, 34, i821–
i829.
Pahikkala T. et al. (2015) Toward more realistic drug–target interaction predictions. Brief.
Bioinf
., 16, 325–337.
30/11/2021 13:24 DeepPurpose: a deep learning library for drug–target interaction prediction | Bioinformatics | Oxford Academic
https://academic.oup.com/bioinformatics/article/36/22-23/5545/6020256?login=true 6/6
Rutkowska A. et al. (2016) A modular probe strategy for drug localization, target identification and target
occupancy measurement on single cell level. ACS Chem. Biol., 11, 2541–2550.
Santos R. et al. (2017) A comprehensive map of molecular drug targets.Nat. Rev. Drug Discov.,16,19-34.
Velavan T.P. , Meyer C.G. (2020) The COVID19 epidemic. Trop. Med. Int. Health, 25, 278–280.
Yang K. et al. (2019) Analyzing learned molecular representations for property prediction. J. Chem. Inf.
Model
., 59, 3370–3388.
Zitnik M. et al. (2019) Machine learning for integrating data in biology and medicine: principles, practice,
and opportunities. Inf. Fus., 50, 71–91.

© The Author(s) 2020. Published by Oxford University Press.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License
(http://creativecommons.org/licenses/by/4.0/), which permits unrestricted reuse, distribution, and
reproduction in any medium, provided the original work is properly cited.

Traduit par : Mme Ali-Khodja Kaouthar- CRSP

Liens vers la version originale (ENG) : https://doi.org/10.1093/bioinformatics/btaa1005