Development of an open-source application for multiprotic small molecule pKa prediction based on machine learning and experimental data

dc.contributor.advisorCzodrowski, Paul
dc.contributor.authorBaltruschat, Marcel
dc.contributor.refereeKast, Stefan M.
dc.date.accepted2024-09-26
dc.date.accessioned2024-10-16T07:17:28Z
dc.date.available2024-10-16T07:17:28Z
dc.date.issued2024
dc.description.abstractDie Säure-Base-Dissoziationskonstante (pKa) und damit der Säure-Base-Charakter eines Moleküls hat einen weitreichenden Einfluss auf seine biopharmazeutischen, pharmakodynamischen und pharmakokinetischen Eigenschaften. Dazu gehören unter anderem Löslichkeit, Absorption, Permeabilität, Proteinbindung und Lipophilie. Diese weitreichenden Auswirkungen sind der Grund dafür, dass pKa-Werte experimentell bestimmt und im Rahmen des Arzneimittelzulassungsverfahrens angegeben werden müssen. Eine genaue Abschätzung der pKa-Werte ist daher von entscheidender Bedeutung für ein erfolgreiches Wirkstoffdesign. Für die Vorhersage von pKa-Werten für kleine Moleküle existieren mehrere kommerzielle und nichtkommerzielle Tools und Ansätze, jedoch fehlt ein quelloffenes, frei verfügbares pKa-Vorhersagetool, das sich in seiner Vorhersagequalität und seinem Funktionsumfang mit den kommerziellen Tools messen kann. Ziel dieser Arbeit ist es, ein solches Tool zu entwickeln, welches auf maschinellem Lernen und ausschließlich experimentell ermittelten pKa-Daten basiert. Dazu wurden zunächst experimentell ermittelte pKa-Daten durch umfangreiche Literatur- und Datenbankrecherchen sowie durch Kooperationen mit verschiedenen Pharmaunternehmen und Softwareanbietern zusammengetragen und standardisiert. Anschließend wurde mit der Entwicklung eines auf maschinellem Lernen basierenden pKa-Vorhersagetools für monoprotische Moleküle begonnen. Nach der Evaluierung verschiedener Transformationsmethoden vom Molekül zu für das Training verwendbare Eingabedaten sowie verschiedener Machine-Learning-Algorithmen konnte ein Random Forest Modell entwickelt werden, das, auf Basis externer Testdatensätze aus der Literatur und der pharmazeutischen Industrie sowie einer 5-fachen Kreuzva- lidierung, mit dem kommerziellen Tool ChemAxon Marvin mithalten kann sowie die Vorhersagequalität vergleichbarer, zu diesem Zeitpunkt veröffentlichter Open-Source-Modelle übertrifft. Die 5-fache Kreuzvalidierung ergab einen MAE von 0.682, einen RMSE von 1.032 und einen R2 von 0.82. Im nächsten Schritt wurde der Fokus auf multiprotische Moleküle gelegt. Hier musste die Datenaufbereitung und Vorverarbeitung erweitert werden, um die konkreten Fragestellungen der Identifizierung und Lokalisierung von Titrationsstellen in Molekülen sowie die Zuordnung der einzelnen experimentellen pKa-Werte zu ihren jeweiligen titrierbaren Gruppen zu bearbeiten. Zu diesem Zweck wurde das Programm Multiprotic pKa Processor (MPP) entwickelt. MPP führt alle notwendigen Vorverarbeitungsschritte durch, identifiziert und lokalisiert titrierbare Gruppen und führt alle weiteren vorbereitenden Schritte durch, um einen schnellen Start des maschinellen Lernens auf Basis der bearbeiteten Datensätze zu ermöglichen. Zusätzlich wird eine detaillierte Analyse der titrierbaren Gruppen der Moleküle in den gegebenen Datensätzen durchgeführt. MPP liefert auch eine Liste von SMILES Arbitrary Target Specification (SMARTS)-Mustern, die die am häufigsten vorkommenden titrierbaren Gruppen repräsentieren und auf Basis der Eingabedatensätze generiert wurden. Insgesamt wurden 16 Datensätze aus verschiedenen Quellen mit insgesamt 84957 pKa-Werten für 26568 verschiedene Moleküle verarbeitet und für das maschinelle Lernen vorbereitet. Schließlich wurde ein multiprotisches pKa-Vorhersagemodell basierend auf der Graph Convolutional Neural Network (GCN)-Architektur auf der Grundlage der aus MPP resultierenden Datensätze entwickelt. Die Implementierung des GCN sowie die Umwandlung der Moleküle in Graphen und das Hinzufügen von Kanten- und Knoteneigenschaften erfolgte mit PyTorch und PyTorch Geometric. Zur Optimierung der Architektur und der Hyperparameter wurde eine Bayes’sche Optimierung mit 500 Durchläufen mittels Optuna durchgeführt. Die einzelnen Modelle wurden mit externen Testdatensätzen evaluiert und mit MLflow getrackt und dokumentiert. Das beste Modell erreichte über alle titrierbaren Gruppen aller mono-, di- und triprotischen Moleküle für den Literatur-Testdatensatz von Settimo et al. einen MAE von 0.414, einen RMSE von 0.587 und einen R2 von 0.929. Für den Industrie-Testdatensatz von Novartis erreichte das Modell einen MAE von 0.791, einen RMSE von 1.048 und einen R2 von 0.808. Insgesamt liegt der MAE-Wert aller Testdatensätze kombiniert bei 0.748. Im Rahmen einer erweiterten Evaluierung wurde ein zweites Modell mit den gleichen Hyperparametern und einem angepassten Trainingsdatensatz trainiert und mit den SAMPL6 und SAMPL7 Datensätzen als externe Testdatensätze evaluiert. Für den monoprotischen Teil beider Datensätze erreichte das Modell einen MAE von 0.442 bzw. 0.722, einen RMSE von 0.592 bzw. 0.907 und einen R2 von 0.915 bzw. 0.851 für SAMPL6 und SAMPL7. Im Falle von SAMPL6 können die statistischen Werte aufgrund der Filterung im Zuge der Präprozessierung nicht mit den veröffentlichten statistischen Werten verglichen werden.de
dc.description.abstractThe acid-base dissociation constant (pKa) and thus the acid-base character of a molecule has a far-reaching influence on its biopharmaceutical, pharmacodynamic and pharmacokinetic properties. These include solubility, absorption, permeability, protein binding and lipophilicity. These wide-ranging effects are the reason why pKa values must be determined experimentally and reported as part of the drug approval process. Accurate estimation of pKa values is therefore critical for successful drug design. Several commercial and non-commercial tools and approaches exist for predicting pKa values for small molecules, but an open source, freely available pKa prediction tool that can compete with the commercial tools in prediction quality and feature set is lacking. The aim of this work is to develop such a tool based on machine learning and exclusively experimentally determined pKa data. To achieve this, experimentally determined pKa data were first compiled and standardised through extensive literature and database searches, as well as collaborations with various pharmaceutical companies and software vendors. Subsequently, the development of a machine learning based pKa prediction tool for monoprotic molecules was initiated. After evaluation of different methods to transform the molecule into input data for training, as well as different machine learning algorithms, a random forest model was developed which, based on external test datasets from the literature and the pharmaceutical industry, as well as a 5-fold cross-validation, was able to compete with the commercial tool ChemAxon Marvin and to outperform the prediction quality of comparable open source models published at that time. The 5-fold cross-validation yielded a MAE of 0.682, a RMSE of 1.032 and a R2 of 0.82. The next step was to focus on multiprotic molecules. Here the data preparation and preprocessing had to be extended to deal with the specific problems of identifying and localising titration sites in molecules and assigning the individual experimentally determined pKa values to their respective titratable groups. For this purpose the program Multiprotic pKa Processor (MPP) was developed. MPP performs all necessary preprocessing steps, identifies and locates titratable groups, and performs all other preparatory steps to allow a quick start of machine learning based on the processed datasets. It also performs a detailed analysis of the titratable groups of the molecules in the given datasets. MPP also provides a list of SMILES Arbitrary Target Specification (SMARTS) patterns representing the most abundant titratable groups generated based on the input datasets. A total of 16 datasets from different sources with a total of 84957 pKa values for 26568 different molecules were processed and prepared for machine learning. Finally, a multiprotic pKa prediction model based on the Graph Convolutional Neural Network (GCN) architecture was developed using the datasets resulting from MPP. The implementation of GCN as well as the transformation of molecules into graphs and the extension of edge and node properties was done using PyTorch and PyTorch Geometric. Bayesian optimisation with 500 runs was performed using Optuna to optimise the architecture and hyperparameters. Each model was evaluated on external test datasets and tracked and documented using MLflow. The best model achieved a MAE of 0.414, a RMSE of 0.587 and a R2 of 0.929 across all titration sites of all mono-, di- and triprotic molecules for the Settimo et al. literature test dataset. For the Novartis industry test dataset, the model achieved a MAE of 0.791, a RMSE of 1.048 and a R2 of 0.808. Overall, the MAE of all test datasets combined was 0.748. As part of an extended evaluation, a second model was trained with the same hyperparameters and a customized training dataset, and evaluated using the SAMPL6 and SAMPL7 datasets as external test datasets. For the monoprotic part of both datasets, the model achieved a MAE of 0.442 and 0.722, a RMSE of 0.592 and 0.907, and a R2 of 0.915 and 0.851 for SAMPL6 and SAMPL7, respectively. In the case of SAMPL6, the statistical values cannot be compared with the published statistical values due to filtering in the course of preprocessing.en
dc.identifier.urihttp://hdl.handle.net/2003/42714
dc.identifier.urihttp://dx.doi.org/10.17877/DE290R-24549
dc.language.isoende
dc.subjectMachine learningen
dc.subjectpKaen
dc.subjectpKsen
dc.subjectSäurekonstantede
dc.subjectAcid dissociation constanten
dc.subject.ddc540
dc.subject.rswkMaschinelles Lernende
dc.subject.rswkMedizinische Chemiede
dc.titleDevelopment of an open-source application for multiprotic small molecule pKa prediction based on machine learning and experimental dataen
dc.typeTextde
dc.type.publicationtypePhDThesisde
dcterms.accessRightsopen access
eldorado.secondarypublicationfalsede

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Dissertation_Baltruschat.pdf
Size:
13.62 MB
Format:
Adobe Portable Document Format
Description:
DNB
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
4.85 KB
Format:
Item-specific license agreed upon to submission
Description: