Development of an open-source application for multiprotic small molecule pKa prediction based on machine learning and experimental data

Baltruschat, Marcel

Development of an open-source application for multiprotic small molecule pKa prediction based on machine learning and experimental data

dc.contributor.advisor	Czodrowski, Paul
dc.contributor.author	Baltruschat, Marcel
dc.contributor.referee	Kast, Stefan M.
dc.date.accepted	2024-09-26
dc.date.accessioned	2024-10-16T07:17:28Z
dc.date.available	2024-10-16T07:17:28Z
dc.date.issued	2024
dc.description.abstract	Die Säure-Base-Dissoziationskonstante (pKa) und damit der Säure-Base-Charakter eines Moleküls hat einen weitreichenden Einfluss auf seine biopharmazeutischen, pharmakodynamischen und pharmakokinetischen Eigenschaften. Dazu gehören unter anderem Löslichkeit, Absorption, Permeabilität, Proteinbindung und Lipophilie. Diese weitreichenden Auswirkungen sind der Grund dafür, dass pKa-Werte experimentell bestimmt und im Rahmen des Arzneimittelzulassungsverfahrens angegeben werden müssen. Eine genaue Abschätzung der pKa-Werte ist daher von entscheidender Bedeutung für ein erfolgreiches Wirkstoffdesign. Für die Vorhersage von pKa-Werten für kleine Moleküle existieren mehrere kommerzielle und nichtkommerzielle Tools und Ansätze, jedoch fehlt ein quelloffenes, frei verfügbares pKa-Vorhersagetool, das sich in seiner Vorhersagequalität und seinem Funktionsumfang mit den kommerziellen Tools messen kann. Ziel dieser Arbeit ist es, ein solches Tool zu entwickeln, welches auf maschinellem Lernen und ausschließlich experimentell ermittelten pKa-Daten basiert. Dazu wurden zunächst experimentell ermittelte pKa-Daten durch umfangreiche Literatur- und Datenbankrecherchen sowie durch Kooperationen mit verschiedenen Pharmaunternehmen und Softwareanbietern zusammengetragen und standardisiert. Anschließend wurde mit der Entwicklung eines auf maschinellem Lernen basierenden pKa-Vorhersagetools für monoprotische Moleküle begonnen. Nach der Evaluierung verschiedener Transformationsmethoden vom Molekül zu für das Training verwendbare Eingabedaten sowie verschiedener Machine-Learning-Algorithmen konnte ein Random Forest Modell entwickelt werden, das, auf Basis externer Testdatensätze aus der Literatur und der pharmazeutischen Industrie sowie einer 5-fachen Kreuzva- lidierung, mit dem kommerziellen Tool ChemAxon Marvin mithalten kann sowie die Vorhersagequalität vergleichbarer, zu diesem Zeitpunkt veröffentlichter Open-Source-Modelle übertrifft. Die 5-fache Kreuzvalidierung ergab einen MAE von 0.682, einen RMSE von 1.032 und einen R2 von 0.82. Im nächsten Schritt wurde der Fokus auf multiprotische Moleküle gelegt. Hier musste die Datenaufbereitung und Vorverarbeitung erweitert werden, um die konkreten Fragestellungen der Identifizierung und Lokalisierung von Titrationsstellen in Molekülen sowie die Zuordnung der einzelnen experimentellen pKa-Werte zu ihren jeweiligen titrierbaren Gruppen zu bearbeiten. Zu diesem Zweck wurde das Programm Multiprotic pKa Processor (MPP) entwickelt. MPP führt alle notwendigen Vorverarbeitungsschritte durch, identifiziert und lokalisiert titrierbare Gruppen und führt alle weiteren vorbereitenden Schritte durch, um einen schnellen Start des maschinellen Lernens auf Basis der bearbeiteten Datensätze zu ermöglichen. Zusätzlich wird eine detaillierte Analyse der titrierbaren Gruppen der Moleküle in den gegebenen Datensätzen durchgeführt. MPP liefert auch eine Liste von SMILES Arbitrary Target Specification (SMARTS)-Mustern, die die am häufigsten vorkommenden titrierbaren Gruppen repräsentieren und auf Basis der Eingabedatensätze generiert wurden. Insgesamt wurden 16 Datensätze aus verschiedenen Quellen mit insgesamt 84957 pKa-Werten für 26568 verschiedene Moleküle verarbeitet und für das maschinelle Lernen vorbereitet. Schließlich wurde ein multiprotisches pKa-Vorhersagemodell basierend auf der Graph Convolutional Neural Network (GCN)-Architektur auf der Grundlage der aus MPP resultierenden Datensätze entwickelt. Die Implementierung des GCN sowie die Umwandlung der Moleküle in Graphen und das Hinzufügen von Kanten- und Knoteneigenschaften erfolgte mit PyTorch und PyTorch Geometric. Zur Optimierung der Architektur und der Hyperparameter wurde eine Bayes’sche Optimierung mit 500 Durchläufen mittels Optuna durchgeführt. Die einzelnen Modelle wurden mit externen Testdatensätzen evaluiert und mit MLflow getrackt und dokumentiert. Das beste Modell erreichte über alle titrierbaren Gruppen aller mono-, di- und triprotischen Moleküle für den Literatur-Testdatensatz von Settimo et al. einen MAE von 0.414, einen RMSE von 0.587 und einen R2 von 0.929. Für den Industrie-Testdatensatz von Novartis erreichte das Modell einen MAE von 0.791, einen RMSE von 1.048 und einen R2 von 0.808. Insgesamt liegt der MAE-Wert aller Testdatensätze kombiniert bei 0.748. Im Rahmen einer erweiterten Evaluierung wurde ein zweites Modell mit den gleichen Hyperparametern und einem angepassten Trainingsdatensatz trainiert und mit den SAMPL6 und SAMPL7 Datensätzen als externe Testdatensätze evaluiert. Für den monoprotischen Teil beider Datensätze erreichte das Modell einen MAE von 0.442 bzw. 0.722, einen RMSE von 0.592 bzw. 0.907 und einen R2 von 0.915 bzw. 0.851 für SAMPL6 und SAMPL7. Im Falle von SAMPL6 können die statistischen Werte aufgrund der Filterung im Zuge der Präprozessierung nicht mit den veröffentlichten statistischen Werten verglichen werden.	de
dc.description.abstract	The acid-base dissociation constant (pKa) and thus the acid-base character of a molecule has a far-reaching influence on its biopharmaceutical, pharmacodynamic and pharmacokinetic properties. These include solubility, absorption, permeability, protein binding and lipophilicity. These wide-ranging effects are the reason why pKa values must be determined experimentally and reported as part of the drug approval process. Accurate estimation of pKa values is therefore critical for successful drug design. Several commercial and non-commercial tools and approaches exist for predicting pKa values for small molecules, but an open source, freely available pKa prediction tool that can compete with the commercial tools in prediction quality and feature set is lacking. The aim of this work is to develop such a tool based on machine learning and exclusively experimentally determined pKa data. To achieve this, experimentally determined pKa data were first compiled and standardised through extensive literature and database searches, as well as collaborations with various pharmaceutical companies and software vendors. Subsequently, the development of a machine learning based pKa prediction tool for monoprotic molecules was initiated. After evaluation of different methods to transform the molecule into input data for training, as well as different machine learning algorithms, a random forest model was developed which, based on external test datasets from the literature and the pharmaceutical industry, as well as a 5-fold cross-validation, was able to compete with the commercial tool ChemAxon Marvin and to outperform the prediction quality of comparable open source models published at that time. The 5-fold cross-validation yielded a MAE of 0.682, a RMSE of 1.032 and a R2 of 0.82. The next step was to focus on multiprotic molecules. Here the data preparation and preprocessing had to be extended to deal with the specific problems of identifying and localising titration sites in molecules and assigning the individual experimentally determined pKa values to their respective titratable groups. For this purpose the program Multiprotic pKa Processor (MPP) was developed. MPP performs all necessary preprocessing steps, identifies and locates titratable groups, and performs all other preparatory steps to allow a quick start of machine learning based on the processed datasets. It also performs a detailed analysis of the titratable groups of the molecules in the given datasets. MPP also provides a list of SMILES Arbitrary Target Specification (SMARTS) patterns representing the most abundant titratable groups generated based on the input datasets. A total of 16 datasets from different sources with a total of 84957 pKa values for 26568 different molecules were processed and prepared for machine learning. Finally, a multiprotic pKa prediction model based on the Graph Convolutional Neural Network (GCN) architecture was developed using the datasets resulting from MPP. The implementation of GCN as well as the transformation of molecules into graphs and the extension of edge and node properties was done using PyTorch and PyTorch Geometric. Bayesian optimisation with 500 runs was performed using Optuna to optimise the architecture and hyperparameters. Each model was evaluated on external test datasets and tracked and documented using MLflow. The best model achieved a MAE of 0.414, a RMSE of 0.587 and a R2 of 0.929 across all titration sites of all mono-, di- and triprotic molecules for the Settimo et al. literature test dataset. For the Novartis industry test dataset, the model achieved a MAE of 0.791, a RMSE of 1.048 and a R2 of 0.808. Overall, the MAE of all test datasets combined was 0.748. As part of an extended evaluation, a second model was trained with the same hyperparameters and a customized training dataset, and evaluated using the SAMPL6 and SAMPL7 datasets as external test datasets. For the monoprotic part of both datasets, the model achieved a MAE of 0.442 and 0.722, a RMSE of 0.592 and 0.907, and a R2 of 0.915 and 0.851 for SAMPL6 and SAMPL7, respectively. In the case of SAMPL6, the statistical values cannot be compared with the published statistical values due to filtering in the course of preprocessing.	en
dc.identifier.uri	http://hdl.handle.net/2003/42714
dc.identifier.uri	http://dx.doi.org/10.17877/DE290R-24549
dc.language.iso	en	de
dc.subject	Machine learning	en
dc.subject	pKa	en
dc.subject	pKs	en
dc.subject	Säurekonstante	de
dc.subject	Acid dissociation constant	en
dc.subject.ddc	540
dc.subject.rswk	Maschinelles Lernen	de
dc.subject.rswk	Medizinische Chemie	de
dc.title	Development of an open-source application for multiprotic small molecule pKa prediction based on machine learning and experimental data	en
dc.type	Text	de
dc.type.publicationtype	PhDThesis	de
dcterms.accessRights	open access
eldorado.dnb.deposit	true	de
eldorado.secondarypublication	false	de

Dateien

Originalbündel

Gerade angezeigt 1 - 1 von 1

Name:: Dissertation_Baltruschat.pdf
Größe:: 13.62 MB
Format:: Adobe Portable Document Format
Beschreibung:: DNB

Herunterladen

Lizenzbündel

Gerade angezeigt 1 - 1 von 1

Name:: license.txt
Größe:: 4.85 KB
Format:: Item-specific license agreed upon to submission
Beschreibung:

Herunterladen

Sammlungen

Fakultät für Chemie und Chemische Biologie