Ein erweiterbares Toolkit für die Community-Erkennung in Netzwerken

Biologische Interaktionsnetzwerke sind oft in Gruppen organisiert (auch genannt Cluster , Funktionsbausteine , oder Gemeinschaft ) verwandter Gene und Proteine, die spezifische biologische Funktionen erfüllen. Community-Erkennung hat zahlreiche Anwendungen für Systeme, die als Graphen beschrieben werden können, zum Beispiel metabolische, neuronale, soziale (z.B. Facebook) und technologische Netzwerke .

Jmod ist eine Open-Source-Java-Bibliothek, die einfach in Softwareanwendungen von Drittanbietern integriert werden kann, um Modulerkennung in Netzwerken durchführen . Es bietet eine verzeichnis der gemeinschaftlichen Nachweismethoden - einschließlich einer neuartigen Methode, die wir entwickelt haben - die weiter ausgebaut werden soll. Jmod ist auch als eigenständige Anwendung mit grafischen und Befehlszeilenbenutzeroberflächen verfügbar.

Das zweite Ziel dieses Projekts ist es, eine intuitive und vollständige Umgebung für die Entwicklung neuartiger Community-Erkennungsmethoden bereitzustellen. Jmod implementiert mehrere benchmarks und Metriken um die Leistung dieser Methoden zu bewerten. Eine Vielzahl zusätzlicher Tools ermöglicht es Forschern fokus auf die Entwicklung neuartiger Methoden und verbringen Sie weniger Zeit mit allgemeinen Aspekten der Community-Erkennung (z. B. Lesen von Netzwerkstrukturen, Implementieren von Standardmetriken usw.).).

Eine der neuesten Funktionen ermöglicht das Erstellen von Schnappschüssen der Community-Struktur während der Community-Erkennung (siehe Video unten). Diese Funktion hat bewiesen, dass sie Folgendes bieten kann wertvolle Einblicke in das Verhalten der Methoden .

Jmod wurde während meiner Doktorarbeit entwickelt. T Schaffter, Von Genen zu Organismen: Bioinformatische Systemmodelle und Software , 2014.

Gemeinschaftliche Nachweismethoden

Das Repository der in Jmod implementierten Methoden enthält die folgenden Algorithmen:

  • Newmans Spektralalgorithmus
  • Genetische algorithmusbasierte Methode
  • Brute-Force-Ansatz
  • Methode zum Verschieben von Scheitelpunkten (MVM)
  • Globale Methode zum Verschieben von Scheitelpunkten (gMVM)

MVM und gMVM sind veredelungstechniken das kann verwendet werden, um weitere Verbesserung der Leistung bestehender gemeinschaftlicher Nachweismethoden .

Um die obige Methode auf eine Vielzahl von Netzwerken anzuwenden, stehen in Jmod die folgenden Netzwerkparser zur Verfügung:

  • TSV-Format (tabulatorgetrennte Werte)
  • GML-Format
  • Punktformat (Graphviz)
  • Netzformat (Pajek)

Jedes dieser Formate wird im Detail beschrieben hier .

Benchmarks für die Profilerstellung von Community-Erkennungsalgorithmen

Die Leistung von Community-Erkennungsmethoden wird anhand verschiedener Benchmark-Diagramme profiliert, die mit Jmod generiert werden können. Die Auswertung von Inferenzmethoden erfordert in der Regel die Generierung von hunderte von Benchmark-Grafiken . Jeder in Jmod implementierte Benchmark-Generator profitiert von mehreren Prozessoren.

Benchmark-Generatoren implementiert:

Nachweis von Funktionsmodulen in Protein-Interaktionskarten

Hier haben wir die verbesserte Version des Newman-Algorithmus angewendet, um die Funktionsmodule in der größten verbundenen Komponente des zu identifizieren Drosophila Protein-Interaktionskarte ( Guruharsha et al. , 2011 ), das 1817 Knoten und 10522 Interaktionen enthält. Wir identifizierten siebenundfünfzig Module verwenden der von uns entwickelten GA-basierten Community-Erkennungsmethode. Knoten werden in verschiedenen Farben gemalt, abhängig davon, zu welchem Modul sie voraussichtlich gehören.

Als Beispiel, alle einunddreißig Proteine von denen bekannt ist, dass sie Teil des Snap / SNARE-Komplexes sind, wurden identifiziert. Darüber hinaus legt die angewandte Gemeinschaftsmethode nahe, dass zwei zusätzliche Proteine (CG7133 und Sgt) nehmen ebenfalls an diesem Komplex teil.

Diese größte verbundene Komponente kann heruntergeladen werden hier .

Netzwerkdatensätze

  • Mark Newmans Repository : enthält Diagramme vieler verschiedener Typen (biologisch, neuronal, sozial, technologisch usw.).) im GML-Format.
  • Stanford Sammlung großer Netzwerkdatensätze : eine umfangreiche Sammlung von Datensätzen, die sehr große Netzwerke beschreiben, einschließlich sozialer Netzwerke, Kommunikationsnetze und Verkehrsnetze.
  • Datensätze von Laszlo Barabasi : Daten zusammengestellt von Prof. Albert-Laszlo Barabasi und Mitarbeitern an der Universität Notre Dame, einschließlich Webdaten und biochemischer Netzwerke.
  • Datensätze von Linton Freeman : Daten zusammengestellt von Prof. Linton Freeman an der Universität von Kalifornien. Der Datensatz enthält kleine (~ 10 Knoten) und viel größere kognitive Netzwerke.
  • Datensätze von Alex Arenas : Daten, die von Prof. Alexandre Arenas und Mitarbeitern der Universidad Rovira i Virgili zusammengestellt wurden, einschließlich metabolischer Netzwerkdaten und des Netzwerks aus ihrer Untersuchung der Kollaborationsmuster von Jazzmusikern.

Kennst du noch einen?

Copyright © 2018 Thomas Schaffter Webseite: Thomas Schaffter