06.07.2022 - Max-Planck-Institut für molekulare Genetik

Markergene in Zellclustern finden

Neue Methode erleichtert die Identifikation von Zelltyp-spezifischen Genen in Single-Cell-Daten

Die abertausenden Zellen in einer biologischen Probe sind alle individuell unterschiedlich und lassen sich einzeln analysieren. Anhand der Gene, die in ihnen aktiv sind, lassen sie sich in „Cluster“ zusammen sortieren. Aber welche Gene sind besonders charakteristisch für Cluster, was sind also ihre „Markergene“? Ein neues bioinformatisches Verfahren namens Association Plot erleichtert die Analyse dieser Daten.

Welche Gene sind spezifisch für einen bestimmten Zelltyp, „markieren“ also deren Identität? Wegen immer größer werdender Datenmengen wird diese Frage immer schwieriger zu beantworten. Häufig sind Markergene einfach Gene, die über Jahre hinweg immer wieder in bestimmten Zellpopulationen gefunden wurden. Jedoch könnten noch viel mehr Gene für einen bestimmten Zelltyp charakteristisch sein, die bisher noch unentdeckt sind.

Ein neues statistisches Verfahren zur Visualisierung der Genaktivität innerhalb eines Zellclusters erleichtert es, dessen Markergene zu finden. Diese „Association Plots“ (APL) vergleichen die Gene eines Clusters mit allen anderen Clustern des Datensatzes. Auch welche Gene in anderen Clustern vorkommen, lässt sich im APL-Diagramm leicht ablesen.

„Mit APL lassen sich nicht nur neue Markergene identifizieren, es funktioniert auch umgekehrt. In einem Datensatz mit unbenannten Clustern können wir Zelltypen bestimmen, wenn wir eine Liste bekannter Markergene als Grundlage nehmen“, sagt Elzbieta Gralinska vom Max-Planck-Institut für molekulare Genetik.

Die Biotechnologin arbeitet im Team von Martin Vingron, welches APL entwickelt, seine Funktion an zwei öffentlich verfügbaren Datensätzen demonstriert und die Ergebnisse in der Fachzeitschrift Journal of Molecular Biologyveröffentlicht hat. Zudem ist APL als kostenloses Modul für die Statistik-Umgebung R erschienen. Das APL-Modul erlaubt es den Forschenden, ihre Single-Cell-Daten visuell zu inspizieren und für detaillierte Einzelheiten einzelne Datenpunkte mit der Computermaus auszuwählen.

Einzelne Zellen analysieren und gruppieren

Warum ist es überhaupt notwendig, Markergene zu ermitteln? Moderne Sequenziertechnologien können inzwischen einzelne Erbgut-Moleküle in einzelnen Zellen analysieren. So kann etwa aus einer Blutprobe jede Zelle vereinzelt und eine Stichprobe der enthaltenen RNA entschlüsselt werden. Diese Daten repräsentieren aktive Gene, die zu RNA-Molekülen transkribiert wurden.

Der Vorteil: Statt zu rätseln, aus welchem Zelltyp nun eine bestimmte RNA stammt, lässt sich diese zu seinem Ursprung zurückverfolgen. Der Nachteil: Sequenzieren die Forschenden tausende RNA-Transkripte in jeder einzelnen von zehntausenden Zellen, entstehen schnell unübersichtliche Datenberge.

Ein Ausweg ist, die Zellen anhand ihrer Eigenschaften zu sortieren. „Einzelzelldaten setzen sich aus Vertretern verschiedenster Zelltypen zusammen. Wir sind jeweils an Zellen desselben Zelltyps interessiert, die sich alle ähnlich verhalten sollten“, erklärt Martin Vingron. Daher sei es sinnvoll, ähnliche Zellen vom Computer zu Gruppen zusammenfassen zu lassen, sagt er. „Für uns werden Zelltypen durch ihre Markergene definiert.“

Interaktiv Cluster erforschen

Anhand öffentlich verfügbarer Daten von weißen Blutzellen demonstrierte das Team sein neues Verfahren. Die vielen verschiedenartigen weißen Blutkörperchen wie T-Zellen, B-Zellen oder Monozyten befinden sich in unterschiedlichen Clustern. Die Forschenden bestätigten bekannte Markergene und konnten zeigen, dass enge Verwandte in der Gruppe der weißen Blutzellen auch große Ähnlichkeit in ihrer Genaktivität aufweisen.

„Jedes der charakteristischen Gene, die wir mit APL gefunden haben, wird von mindestens einer anderen Methode zum Aufspüren dieser Gene gefunden“, sagt Gralinska. Denn zur Bestimmung von Markergenen in Clustern existieren zwar bereits Algorithmen, erklärt die Forscherin. Doch die grafische Darstellung der Ergebnisse als Association Plots sei äußerst vorteilhaft. „Bestehende Verfahren liefern lediglich lange Listen von Genen und Score-Werten. User gehen die Liste häufig durch und brechen dann bei einem willkürlichen Schwellenwert ab“, sagt Gralinska.

Die neue Methode dagegen biete eine Möglichkeit, diese Gene zu visualisieren, auf jedes einzelne Gen zu klicken und dessen Aktivität genauer unter die Lupe zu nehmen. „Wir stellen nicht nur Listen von Markergenen zur Verfügung, sondern die Benutzerinnen und Benutzer können auch überprüfen, wie sich diese Gene verhalten“, sagt die Forscherin. „Mit Association Plots können sie in ihre Daten eintauchen, um mehr über die einzelnen Zelltypen zu erfahren.“ Zudem sei es sehr einfach, über kompatible Software in einem weiteren Schritt eine Gene-Ontology-Enrichment-Analyse durchzuführen. Dadurch ließe sich die biologische Funktion der interessantesten Gene aufschlüsseln – „ein sehr nützliches Feature“, findet Gralinska.

Das zugrundeliegende mathematische Modell

Die hochdimensionalen Daten aus Genaktivitäten von Zellen lassen sich visuell nicht ohne Informationsverlust darstellen. Dies erschwert auch die Analyse von Clusterdaten. „Unser Trick ist, dass wir viel mehr als nur zwei oder drei Dimensionen einbeziehen, letztlich aber ein zweidimensionales Diagramm erstellen können“, sagt Gralinska. 

Den Association Plots liegt ein mathematisches Verfahren zugrunde, das Gene und Zellen in einem hochdimensionalen Raum einbettet. Durch die Messung der Abstände zwischen Genen und Zellen in diesem Raum ergeben sich Wertepaare, die einerseits die Verbundenheit eines Gens zum eigenen Cluster und andererseits die Assoziation zu den anderen Clustern widerspiegeln.

„Ein Nachteil der Association Plots ist, dass wir auf geclusterte Daten angewiesen sind. Für das Clustering müssen wir andere Techniken einsetzen“, sagt Martin Vingron. „Nichtsdestotrotz hoffen wir, dass unser neues Verfahren viele neue Anwenderinnen und Anwender findet. Wir finden, dass ein visueller und interaktiver Prozess die Analyse einfach besser macht.“

Max-Planck-Institut für molekulare Genetik

News weiterempfehlen PDF Ansicht / Drucken

Teilen bei

Fakten, Hintergründe, Dossiers
  • Gene
  • Bioinformatik
  • Genaktivität
  • Datenanalyse
  • Zellanalyse
Mehr über MPI für molekulare Genetik
  • News

    Mehr als die Summe der Mutationen

    Ein neuer Algorithmus sagt Gene vorher, die an der Entstehung von Krebs beteiligt sein können, deren DNA-Sequenz jedoch nicht zwangsläufig verändert ist. Ein Berliner Forschungsteam hat unterschiedlichste Daten kombiniert, sie mit „künstlicher Intelligenz“ analysiert und so zahlreiche Krebs ... mehr

    Brüche im Erbgut

    Brüche und Umlagerungen im Erbgut können zu schweren Erkrankungen führen, selbst wenn die Gene dabei intakt bleiben. Eine zuverlässige und genaue Diagnose solcher Defekte verspricht Hi-C, eine Methode zur Analyse der dreidimensionalen Struktur von Chromosomen, die derzeit in der Klinik noch ... mehr

    Schweizer Taschenmesser für die Genomforschung

    Der Traum eines jeden Genetikers: Ein einfach zu bedienendes Programm, das Enhancer-Regionen identifiziert, sie unter verschiedenen Bedingungen in der Zelle vergleicht und ihren Genen zuordnet. Ein Forschungsteam um Professor Martin Vingron am Max-Planck-Institut für molekulare Genetik entw ... mehr

Mehr über Max-Planck-Gesellschaft
  • News

    Mehr als Mikroskope zeigen können

    Ein internationales Forscherteam des Max-Planck-Instituts für molekulare Biomedizin in Münster um Hans Schöler und Vlad Cojocaru hat ein Schlüsselprotein für die Umwandlung von adulten Stammzellen in Zellen, die embryonalen Stammzellen ähneln, in noch nie dagewesener Detailgenauigkeit visua ... mehr

    Spiegelmoleküle verraten Trockenstress von Wäldern

    Weltweit geben Pflanzen etwa 100 Millionen Tonnen an Monoterpenen an die Atmosphäre ab. Zu diesen flüchtigen organischen Molekülen zählen viele Duftstoffe wie beispielsweise das Molekül Pinen, das für seinen frischen Kiefernduft bekannt ist. Da diese Moleküle sehr reaktiv sind und winzige A ... mehr

    Molekulare Musik ordentlich aufgedreht

    Empfindliche Tiernasen können Spurenpartikel, wie flüchtige organische Verbindungen, in der Umgebungsluft erschnuppern. Der Mensch dagegen entwickelt dafür innovative Technologien, wie etwa die optische Spektroskopie. Dabei wird mit Hilfe von Laserlicht die molekulare Zusammensetzung von Ga ... mehr