Ein erweiterbares Toolkit für die Community-Erkennung in Netzwerken
Biologische Interaktionsnetzwerke sind oft in Gruppen organisiert (auch genannt
Cluster
,
Funktionsbausteine
, oder
Gemeinschaft
) verwandter Gene und Proteine, die spezifische biologische Funktionen erfüllen. Community-Erkennung hat zahlreiche Anwendungen für Systeme, die als Graphen beschrieben werden können, zum Beispiel
metabolische, neuronale, soziale (z.B. Facebook) und technologische Netzwerke
.
Jmod ist eine Open-Source-Java-Bibliothek, die einfach in Softwareanwendungen von Drittanbietern integriert werden kann, um
Modulerkennung in Netzwerken durchführen
. Es bietet eine
verzeichnis der gemeinschaftlichen Nachweismethoden
- einschließlich einer neuartigen Methode, die wir entwickelt haben - die weiter ausgebaut werden soll. Jmod ist auch als eigenständige Anwendung mit grafischen und Befehlszeilenbenutzeroberflächen verfügbar.
Das zweite Ziel dieses Projekts ist es, eine intuitive und vollständige Umgebung für die Entwicklung neuartiger Community-Erkennungsmethoden bereitzustellen. Jmod implementiert mehrere
benchmarks und Metriken
um die Leistung dieser Methoden zu bewerten. Eine Vielzahl zusätzlicher Tools ermöglicht es Forschern
fokus auf die Entwicklung neuartiger Methoden
und verbringen Sie weniger Zeit mit allgemeinen Aspekten der Community-Erkennung (z. B. Lesen von Netzwerkstrukturen, Implementieren von Standardmetriken usw.).).
Eine der neuesten Funktionen ermöglicht das Erstellen von Schnappschüssen der Community-Struktur während der Community-Erkennung (siehe Video unten). Diese Funktion hat bewiesen, dass sie Folgendes bieten kann
wertvolle Einblicke in das Verhalten der Methoden
.
Globale Methode zum Verschieben von Scheitelpunkten (gMVM)
MVM und gMVM sind
veredelungstechniken
das kann verwendet werden, um
weitere Verbesserung der Leistung bestehender gemeinschaftlicher Nachweismethoden
.
Um die obige Methode auf eine Vielzahl von Netzwerken anzuwenden, stehen in Jmod die folgenden Netzwerkparser zur Verfügung:
TSV-Format (tabulatorgetrennte Werte)
GML-Format
Punktformat (Graphviz)
Netzformat (Pajek)
Jedes dieser Formate wird im Detail beschrieben
hier
.
Benchmarks für die Profilerstellung von Community-Erkennungsalgorithmen
Die Leistung von Community-Erkennungsmethoden wird anhand verschiedener Benchmark-Diagramme profiliert, die mit Jmod generiert werden können. Die Auswertung von Inferenzmethoden erfordert in der Regel die Generierung von
hunderte von Benchmark-Grafiken
. Jeder in Jmod implementierte Benchmark-Generator profitiert von mehreren Prozessoren.
Cliquenringgraphen (zur Auswertung der
auflösungsgrenze
)
Zufallsgraphen (Erdös-Rényi- und skalenfreie Molloy-Reed-Modelle)
Nachweis von Funktionsmodulen in Protein-Interaktionskarten
Hier haben wir die verbesserte Version des Newman-Algorithmus angewendet, um die Funktionsmodule in der größten verbundenen Komponente des zu identifizieren
Drosophila
Protein-Interaktionskarte
(
Guruharsha
et al.
, 2011
), das 1817 Knoten und 10522 Interaktionen enthält. Wir identifizierten
siebenundfünfzig Module
verwenden der von uns entwickelten GA-basierten Community-Erkennungsmethode. Knoten werden in verschiedenen Farben gemalt, abhängig davon, zu welchem Modul sie voraussichtlich gehören.
Als Beispiel,
alle einunddreißig Proteine
von denen bekannt ist, dass sie Teil des Snap / SNARE-Komplexes sind, wurden identifiziert. Darüber hinaus legt die angewandte Gemeinschaftsmethode nahe, dass
zwei zusätzliche Proteine
(CG7133 und Sgt) nehmen ebenfalls an diesem Komplex teil.
Diese größte verbundene Komponente kann heruntergeladen werden
hier
.
Netzwerkdatensätze
Mark Newmans Repository
: enthält Diagramme vieler verschiedener Typen (biologisch, neuronal, sozial, technologisch usw.).) im GML-Format.
Stanford Sammlung großer Netzwerkdatensätze
: eine umfangreiche Sammlung von Datensätzen, die sehr große Netzwerke beschreiben, einschließlich sozialer Netzwerke, Kommunikationsnetze und Verkehrsnetze.
Datensätze von Laszlo Barabasi
: Daten zusammengestellt von Prof. Albert-Laszlo Barabasi und Mitarbeitern an der Universität Notre Dame, einschließlich Webdaten und biochemischer Netzwerke.
Datensätze von Linton Freeman
: Daten zusammengestellt von Prof. Linton Freeman an der Universität von Kalifornien. Der Datensatz enthält kleine (~ 10 Knoten) und viel größere kognitive Netzwerke.
Datensätze von Alex Arenas
: Daten, die von Prof. Alexandre Arenas und Mitarbeitern der Universidad Rovira i Virgili zusammengestellt wurden, einschließlich metabolischer Netzwerkdaten und des Netzwerks aus ihrer Untersuchung der Kollaborationsmuster von Jazzmusikern.