• contact@spgoo.org

CDA Valbiocosm : P. Baril (CBM)

Objectifs : dans le cadre de la collaboration CBM et SPGoO pour l’appel à projet APR-IR 2025, ce CDA a pour objectif de reconstruire les traitements et analyses effectués au cours de la première campagne qui a donné lieu une publication et de les revisiter. Il se déroulera en plusieurs étapes :

  • Reprise de l’existant et inventaire : données et traitements
  • Compréhension du contexte et des résultats
  • Elaboration d’un site web de manipulation de ces données et traitements

Reprise des analyses de données issues de la première campagne de collecte.

Inventaire des données existantes

Etat des traitements associés

Script d’alimentation de la base MongoDB
# -------------------------------------------------------------------------------------------
# SPGoO    Mars 2025 
# Projet valbiocosm
#
# -------------------------------------------------------------------------------------------
import pymongo
import re
import os
import string
import sys
import getopt
import csv
import collections
import glob

# -----------------------------------------
# Connexion a la base de donnees
# -----------------------------------------
myclient = pymongo.MongoClient("mongodb://localhost:27087/",username="spgoo",password="toto&tata",authSource="valbiocosm",authMechanism='SCRAM-SHA-1')
mydb = myclient["valbiocosm"]
mycol = mydb["data"]
# on le lit ligne par ligne et on interprete 
attributs=["ID","Name","baseMean","log2FoldChange","padj","TGF_rep1","TGF_rep2","TGF_rep3","TGF_SM31_rep1","TGF_SM31_rep2","TGF_SM31_rep3"]

with open('ANALYSIS_TGF-SM31_vs_TGF_DESeq_results_geneName.csv', 'r') as file:
    reader = csv.reader(file, delimiter=";")
    for row in reader:
        struc={}
        indice=0
        for element in row:
           struc[attributs[indice]]=element
           indice+=1
        print(struc)
        mycol.insert_one(struc)
Représentation d’une donnée sur 57281 au total
{
    "_id" : ObjectId("67c95492fcd9f3b2f67e8631"),
    "ID" : "ENSG00000226777,3",
    "Name" : "KIAA0125",
    "baseMean" : "8.86271877039942",
    "log2FoldChange" : "4.77052727744133",
    "padj" : "0.000266037476676622",
    "TGF_rep1" : "0",
    "TGF_rep2" : "0",
    "TGF_rep3" : "2.0227232449272",
    "TGF_SM31_rep1" : "16.4122278619582",
    "TGF_SM31_rep2" : "16.5666702377195",
    "TGF_SM31_rep3" : "18.1746912777916"
}
Statistiques pour les valeurs non NA (18679)
>>> df2.describe()
            baseMean  log2FoldChange          padj       TGF,rep1       TGF,rep2       TGF,rep3  TGF,SM31,rep1  TGF,SM31,rep2  TGF,SM31,rep3
count   18679.000000    18679.000000  18679.000000   18679.000000   18679.000000   18679.000000   1.867900e+04   1.867900e+04   1.867900e+04
mean     1400.981008       -0.032196      0.419208    1419.357753    1408.611267    1404.150946   1.391443e+03   1.380072e+03   1.402251e+03
std      9234.981940        0.512314      0.351076    9057.133664    9010.878394    8729.792399   9.656131e+03   9.648963e+03   9.549623e+03
min         5.256422       -5.894301      0.000000       0.000000       0.000000       0.000000   0.000000e+00   0.000000e+00   0.000000e+00
25%        39.028457       -0.203786      0.039928      38.896284      39.872183      39.443103   3.829520e+01   3.823078e+01   3.808031e+01
50%       311.902495        0.005739      0.393300     310.286263     309.915606     310.488018   3.063616e+02   3.020231e+02   3.055079e+02
75%      1225.563792        0.189984      0.759990    1230.536976    1223.351078    1230.827095   1.221617e+03   1.218287e+03   1.229821e+03
max    986302.417185        4.770527      0.999992  935041.908875  937074.238843  898936.641787   1.052831e+06   1.067114e+06   1.026816e+06

Représentation graphique Graphe1

  • xAxisLeft
  • yAxisTop
Close Controls
  • padj > 0.01 & Log2FoldChange < 1 & Log2FoldChange > -1
  • padj > 0.01 & Log2FoldChange > 1 & Log2FoldChange < -1
  • padj < 0.01 & Log2FoldChange < -1
  • padj < 0.01 & Log2FoldChange > 1