Authors: Maurer, Sara
Title: Engineering novel TALE repeats for the selective and direct detection of epigenetic cytosine modifications
Language (ISO): en
Abstract: Genetic information within a cell is stored in the nucleotide sequence of deoxyribonucleic acid (DNA). In a multicellular organism, all somatic cells contain the same genetic material i.e. have the same genotype. Nevertheless, they can differ greatly in their morphologies and functions, which is commonly attributed to a differentiated pattern of gene expression. Responsible for the formation of a cell´s specific phenotype are epigenetic modifications, which act as an additional layer of information that modulates chromatin structure and genome function within a cell. Being superimposed on the nucleotide sequence of DNA, epigenetic modifications consist of chemical modifications to DNA nucleobases and histone proteins which structure the chromatin. One of the first discovered epigenetic DNA modifications in mammals is 5-methylcytosine (5mC)[3], which has been linked to transcriptional repression and hence has been shown to influence a multitude of cellular and developmental processes such as genome stability, X-chromosome inactivation or imprinting[4]. Furthermore, aberrant methylation patterns have been linked to the development of numerous diseases including mental illnesses and cancer[4-5]. With the discovery of the oxidized variants of 5mC namely 5-hydroxymethylcytosine (5hmC)[6], 5-formylcytosine (5fC)[7], and 5-carboxylcytosine (5caC)[7a, 8] as additional cytosine modifications, the question of their epigenetic relevance has emerged and has since been investigated. In order to get a better understanding of their individual functions, programmable detection methods with high selectivity for the individual cytosine variants, preferentially with applicability in living organisms, are needed. In the present study, modified transcription activator-like effector (TALE) proteins were used as DNAbinding scaffolds to investigate the individual cytosine modifications in a sequence-specific, direct, and selective manner. TALE proteins consist of an array of structurally highly conserved repeat units of which each makes specific contact to one of the DNA nucleotides. This one-to-one contact between the TALE repeat and the nucleobase is enabled by the hypervariable di-residue (repeat variable di-residue, RVD) positioned at amino acid residues 12 and 13 within each TALE repeat. Recognition thereby follows the so-called TALE code according to which RVD amino acids HD (His12, Asp13), NG (Asn12, Gly13), NN (Asn12, Asn13) and NI (Asn12, Ile13) specifically recognize nucleobases C, T, G and A, respectively[9]. The programmable sequence-specificity in combination with their sensitivity towards the epigenetic nucleobase 5mC and 5hmC[10] provided the idea for engineering size-reduced TALE repeats with novel selectivity for the chemically and structurally distinct oxidized 5mC derivatives. In a first project, saturation mutagenesis of RVD position 12 in combination with deletions of position 13 or deletion of position 13 and 14 provided two TALE libraries with size-reduced repeats that were screened for their binding ability towards C and the four modified cytosine variants. This resulted in a total of 200 new XI repeat-DNA interactions and the discovery of repeat P* (Pro12, * = deletion at pos. 13) as the first programmable sensor of 5caC[2]. On the basis of these results, the study was extended to a more thorough investigation of a truncated TALE repeat scaffold with maximal flexibility for new repeatnucleobase interaction modes. In a second project, six different mutant repeat libraries containing one to four deletions in the RVD loop region (repeat positions 12 to 15) combined with substitutions of repeat positions 11 or 12 were generated and libraries were screened for their selective binding to C, 5mC, 5hmC, 5fC and 5caC. The development of a Förster resonance energy transfer (FRET)-based DNase I competition assay allowed screening of TALE mutant libraries in a 384-well plate format and yielded a total number of 330 new repeat-nucleobase interactions. Intriguingly, this study revealed repeat R**** (Arg11, **** = deletions at positions 12 to 15) as the first size-reduced TALE repeat, which selectively and directly binds an oxidized 5mC variant. The structure and selectivity of repeat R**** was studied in more detail using molecular dynamic (MD) simulations and homology models. Our results showed a completely new binding mode towards 5caC, where Arg11 has a dual function in stabilizing the repeat structure and selectively recognizing 5caC. The results obtained from these studies denote a considerable step towards a better understanding of how repeat-nucleobase interactions can be modulated or manipulated and reveal the surprising engineering potential and adaptability of TALE repeats.
Die genetische Information einer Zelle ist in der Nukleotidsequenz der Desoxyribonukleinsäure (DNS, engl.: DNA) gespeichert. In einem mehrzelligen Organismus besitzen alle somatischen Zellen das gleiche genetische Material, d. h. sie haben den gleichen Genotyp. Nichtsdestotrotz unterscheiden sie sich grundlegend in ihrer Morphologie und ihren Funktionen, was auf ein differenziertes Genexpressionsmuster innerhalb jeder Zelle zurückzuführen ist. Verantwortlich für die Ausbildung des Phänotyps einer individuellen Zelle sind epigenetische Modifikationen, die in Überlagerung mit der DNA-Nukleotidsequenz eine zusätzliche Informationsschicht darstellen und die Chromatinstruktur sowie die Funktionen des Genoms maßgeblich beeinflussen. Epigenetische Modifikationen bestehen aus zwei Arten chemischer Modifikationen, denen der DNA und denen von Histonproteine. Eine der am besten untersuchten epigenetischen DNA-Modifikationen in Säugetieren ist 5-Methylcytosin (5mC)[3], welches durch Methylierung von Cytosin an der Position C5 innerhalb des Desoxyribosemoleküls entsteht. Diese DNA-Modifikation steht in Verbindung mit transkriptioneller Repression und beeinflusst dadurch eine große Anzahl zellulärer und entwicklungsphysiologischer Prozesse wie z.B. die Stabilität des Genoms, die X-Chromosom-Inaktivierung oder Imprinting[4]. Darüber hinaus konnten anormale Methylierungsmuster mit der Entstehung verschiedener Krankheiten, darunter psychische Krankheiten und Krebs, in Verbindung gebracht werden[4-5]. Mit der Entdeckung der oxidierten Formen von 5-Methylcytosin, darunter 5-Hydroxymethylcytosin (5hmC)[6], 5-Formylcytosin (5fC)[7] und 5-Carboxylcytosin (5caC)[7a, 8], als weitere Cytosin-Modifikationen, entstand die Frage nach deren epigenetischer Bedeutung. Um die biologischen Funktionen der einzelnen Cytosin-Modifikationen besser zu erforschen und zu verstehen, werden programmierbare, selektive Detektionsmethoden benötigt, die sich zur Anwendung im lebenden Organismus eignen. In der hier vorliegenden Arbeit wurden modifizierte Transkriptionsaktivator-artige Effektor (TALE) - Proteine auf ihre Verwendung zur sequenz-spezifischen, direkten und selektiven Detektion der einzelnen modifizierten Cytosinbasen in DNA untersucht. TALE Proteine bestehen aus einer Abfolge von strukturell hochkonservierten Wiederholungseinheiten, die jeweils eine einzelne DNA-Nukleobase erkennen. Die spezifischen Eins-zu-eins-Erkennung zwischen der Wiederholungseinheit des TALEs und der DNANukleobase geschieht durch zwei hypervariable Aminosäure an Position 12 und 13, dem sogenannten repeat variable di-residue (RVD), innerhalb einer TALE Wiederholungseinheit. Die Erkennung folgt dabei dem sogenannten TALE code, wonach RVD Aminosäuren HD (His12, Asp13), NG (Asn12, Gly13), NN (Asn12, Asn13) und NI (Asn12, Ile13) jeweils spezifisch die DNA-Nukleobasen C, T, G und A erkennen[9]. XIII Die programmierbare Sequenzspezifizität von TALE-Proteinen in Kombination mit deren bereits bekannten Sensitivität gegenüber den epigenetischen Cytosin-Modifikationen 5mC und 5hmC[10], lieferte die Idee zur Entwicklung artifizieller, verkleinerter TALE-Wiederholungseinheiten mit neuen Selektivitäten für die chemisch und strukturell anspruchsvolleren oxidierten 5-Methylcytosin-Varianten. In einem ersten Teilprojekt wurden über Kombination von Sättigungsmutagenese der Wiederholungseinheit-Position 12 und einer Deletion der nebenliegenden Position 13 sowie der Positionen 13 und 14 zwei TALE-Wiederholungseinheit-Bibliotheken erstellt (Bibliotheken X* und X** mit X = eine der 20 kanonischen Aminosäuren an Position 12 und * = Deletion der Position 13, sowie ** = Deletion von Positionen 13 und 14). Die verkleinerten Wiederholungseinheiten wurden im Folgenden auf ihre Bindungsselektivität gegenüber den fünf verschiedenen Cytosin-Nukleobasen getestet. Dies resultierte in der Untersuchung von 200 unbekannten TALE-Nukleobase-Interaktionen und führte zur Entdeckung von TALE-Wiederholungseinheit P* (Pro12, * = Deletion von Position 13) als ersten programmierbaren Sensor für 5caC[2]. Basierend auf diesen Ergebnissen wurde die Untersuchung auf noch stärker verkleinerte TALEWiederholungseinheit- Strukturen ausgeweitet, was eine maximale Flexibilität zur Entstehung von neuen TALE-Nukleobasen-Interaktionen ermöglichen sollte. Daher wurden in einem zweiten Teilprojekt sechs weitere TALE-Wiederholungseinheit-Bibliotheken hergestellt, die eine bis vier Deletionen (Positionen 12 bis 15 innerhalb der TALE-Wiederholungseinheit) und Substitutionen von Wiederholungseinheit-Positionen 11 und 12 aufwiesen. Die resultierenden TALE-Wiederholungseinheiten wurden ebenfalls auf ihre Bindungsselektivität gegenüber C, 5mC, 5hmC, 5fC und 5caC getestet. Ein neu entwickelter Förster-Resonanzenergietransfer (FRET)-basierter DNase I-Kompetitionsassay ermöglichte eine Hochdurchsatzuntersuchung der TALE-Wiederholungseinheiten in 384 parallelen Ansätzen (384-well plate format). Dadurch konnten 330 unbekannten TALE-Nukleobasen-Interaktionen untersucht werden. Dies führte zur Entdeckung von Wiederholungseinheit R**** (Arg11, **** = Deletion von Positionen 12 bis 15) als erste, verkleinerte TALE-Wiederholungseinheit mit selektiver, programmierbarer und direkter Erkennung einer oxidierten 5mC-Variante. Genauere Untersuchungen der Struktur der Wiederholungseinheit sowie der Selektivität von R**** über Moleküldynamik (MD)-Simulationen und die Erstellung von Homologiemodellen, zeigten einen komplett neuen Bindungsmechanismus bei der direkten Erkennung von 5caC. Die Ergebnisse aus der vorliegenden Arbeit stellen somit einen wesentlichen Beitrag zum besseren Verständnis der Manipulation von TALE-Nukleobasen-Interaktionen dar und konnten darüber hinaus die erstaunliche Adaptierbarkeit von TALE-Wiederholungseinheiten aufzeigen.
Subject Headings: Epigenetik
Cytosinmodifikationen
TALE Proteine
Subject Headings (RSWK): Epigenetik
Cytosin
URI: http://hdl.handle.net/2003/37831
http://dx.doi.org/10.17877/DE290R-19826
Issue Date: 2018
Appears in Collections:Chemische Biologie

Files in This Item:
File Description SizeFormat 
20180809_Thesis_Sara Maurer_Print (2).pdfDNB6.09 MBAdobe PDFView/Open


This item is protected by original copyright



This item is protected by original copyright rightsstatements.org