Jmod: ein erweiterbares Toolkit zur Erkennung von Netzwerkmodulen

Ein erweiterbares Toolkit für die Community-Erkennung in Netzwerken

Biologische Interaktionsnetzwerke sind oft in Gruppen organisiert (auch genannt Cluster , Funktionsbausteine , oder Gemeinschaft ) verwandter Gene und Proteine, die spezifische biologische Funktionen erfüllen. Community-Erkennung hat zahlreiche Anwendungen für Systeme, die als Graphen beschrieben werden können, zum Beispiel metabolische, neuronale, soziale (z.B. Facebook) und technologische Netzwerke .

Jmod ist eine Open-Source-Java-Bibliothek, die einfach in Softwareanwendungen von Drittanbietern integriert werden kann, um Modulerkennung in Netzwerken durchführen . Es bietet eine verzeichnis der gemeinschaftlichen Nachweismethoden - einschließlich einer neuartigen Methode, die wir entwickelt haben - die weiter ausgebaut werden soll. Jmod ist auch als eigenständige Anwendung mit grafischen und Befehlszeilenbenutzeroberflächen verfügbar.

Das zweite Ziel dieses Projekts ist es, eine intuitive und vollständige Umgebung für die Entwicklung neuartiger Community-Erkennungsmethoden bereitzustellen. Jmod implementiert mehrere benchmarks und Metriken um die Leistung dieser Methoden zu bewerten. Eine Vielzahl zusätzlicher Tools ermöglicht es Forschern fokus auf die Entwicklung neuartiger Methoden und verbringen Sie weniger Zeit mit allgemeinen Aspekten der Community-Erkennung (z. B. Lesen von Netzwerkstrukturen, Implementieren von Standardmetriken usw.).).

Eine der neuesten Funktionen ermöglicht das Erstellen von Schnappschüssen der Community-Struktur während der Community-Erkennung (siehe Video unten). Diese Funktion hat bewiesen, dass sie Folgendes bieten kann wertvolle Einblicke in das Verhalten der Methoden .

Jmod wurde während meiner Doktorarbeit entwickelt. T Schaffter, Von Genen zu Organismen: Bioinformatische Systemmodelle und Software , 2014.

Gemeinschaftliche Nachweismethoden

Das Repository der in Jmod implementierten Methoden enthält die folgenden Algorithmen:

Newmans Spektralalgorithmus
Genetische algorithmusbasierte Methode
Brute-Force-Ansatz
Methode zum Verschieben von Scheitelpunkten (MVM)
Globale Methode zum Verschieben von Scheitelpunkten (gMVM)

MVM und gMVM sind veredelungstechniken das kann verwendet werden, um weitere Verbesserung der Leistung bestehender gemeinschaftlicher Nachweismethoden .

Um die obige Methode auf eine Vielzahl von Netzwerken anzuwenden, stehen in Jmod die folgenden Netzwerkparser zur Verfügung:

TSV-Format (tabulatorgetrennte Werte)
GML-Format
Punktformat (Graphviz)
Netzformat (Pajek)

Jedes dieser Formate wird im Detail beschrieben hier .

Benchmarks für die Profilerstellung von Community-Erkennungsalgorithmen

Die Leistung von Community-Erkennungsmethoden wird anhand verschiedener Benchmark-Diagramme profiliert, die mit Jmod generiert werden können. Die Auswertung von Inferenzmethoden erfordert in der Regel die Generierung von hunderte von Benchmark-Grafiken . Jeder in Jmod implementierte Benchmark-Generator profitiert von mehreren Prozessoren.

Benchmark-Generatoren implementiert:

Lancichinetti-Fortunato-Radicchi (LFR) Grafiken
Cliquenringgraphen (zur Auswertung der auflösungsgrenze )
Zufallsgraphen (Erdös-Rényi- und skalenfreie Molloy-Reed-Modelle)

Nachweis von Funktionsmodulen in Protein-Interaktionskarten

Hier haben wir die verbesserte Version des Newman-Algorithmus angewendet, um die Funktionsmodule in der größten verbundenen Komponente des zu identifizieren Drosophila Protein-Interaktionskarte ( Guruharsha et al. , 2011 ), das 1817 Knoten und 10522 Interaktionen enthält. Wir identifizierten siebenundfünfzig Module verwenden der von uns entwickelten GA-basierten Community-Erkennungsmethode. Knoten werden in verschiedenen Farben gemalt, abhängig davon, zu welchem Modul sie voraussichtlich gehören.

Als Beispiel, alle einunddreißig Proteine von denen bekannt ist, dass sie Teil des Snap / SNARE-Komplexes sind, wurden identifiziert. Darüber hinaus legt die angewandte Gemeinschaftsmethode nahe, dass zwei zusätzliche Proteine (CG7133 und Sgt) nehmen ebenfalls an diesem Komplex teil.

Diese größte verbundene Komponente kann heruntergeladen werden hier .

Netzwerkdatensätze

Mark Newmans Repository : enthält Diagramme vieler verschiedener Typen (biologisch, neuronal, sozial, technologisch usw.).) im GML-Format.
Stanford Sammlung großer Netzwerkdatensätze : eine umfangreiche Sammlung von Datensätzen, die sehr große Netzwerke beschreiben, einschließlich sozialer Netzwerke, Kommunikationsnetze und Verkehrsnetze.
Datensätze von Laszlo Barabasi : Daten zusammengestellt von Prof. Albert-Laszlo Barabasi und Mitarbeitern an der Universität Notre Dame, einschließlich Webdaten und biochemischer Netzwerke.
Datensätze von Linton Freeman : Daten zusammengestellt von Prof. Linton Freeman an der Universität von Kalifornien. Der Datensatz enthält kleine (~ 10 Knoten) und viel größere kognitive Netzwerke.
Datensätze von Alex Arenas : Daten, die von Prof. Alexandre Arenas und Mitarbeitern der Universidad Rovira i Virgili zusammengestellt wurden, einschließlich metabolischer Netzwerkdaten und des Netzwerks aus ihrer Untersuchung der Kollaborationsmuster von Jazzmusikern.

Kennst du noch einen?

Copyright © 2018 Thomas Schaffter Webseite: Thomas Schaffter

Version 1.2.2 Beta / Benötigt Java | 2 GB und 4 GB verfügbare Versionen für 64-Bit-Java

Klicken hier wenn die App nicht startet.

Startseite
Herunterladen
Dokumentation
Publications
FAQ und Unterstützung

Autor

Advisor

Dario Floreano (EPFL)

Forschungsprojekte

GennEtzWerker (GNW)

In silico

WingJ

Drosophila

Jmod
libSDE
Squid