CDA Valbiocosm : P. Baril (CBM)
Ressources SPGoO : YS (Janv 2026 – juin 2026)
Objectifs : dans le cadre de la collaboration CBM et SPGoO pour l’appel à projet APR-IR 2025, ce CDA a pour objectif de reconstruire les traitements et analyses effectués au cours de la première campagne qui a donné lieu une publication et de les revisiter. Il se déroulera en plusieurs étapes :
- Reprise de l’existant et inventaire : données et traitements
- Compréhension du contexte et des résultats
- Elaboration d’un site web de manipulation de ces données et traitements
Déroulement des opérations :
Reprise des analyses de données issues de la première campagne de collecte.
Inventaire des données existantes
Etat des traitements associés
Script d’alimentation de la base MongoDB
# -------------------------------------------------------------------------------------------
# SPGoO Mars 2025
# Projet valbiocosm
#
# -------------------------------------------------------------------------------------------
import pymongo
import re
import os
import string
import sys
import getopt
import csv
import collections
import glob
# -----------------------------------------
# Connexion a la base de donnees
# -----------------------------------------
myclient = pymongo.MongoClient("mongodb://localhost:27087/",username="spgoo",password="toto&tata",authSource="valbiocosm",authMechanism='SCRAM-SHA-1')
mydb = myclient["valbiocosm"]
mycol = mydb["data"]
# on le lit ligne par ligne et on interprete
attributs=["ID","Name","baseMean","log2FoldChange","padj","TGF_rep1","TGF_rep2","TGF_rep3","TGF_SM31_rep1","TGF_SM31_rep2","TGF_SM31_rep3"]
with open('ANALYSIS_TGF-SM31_vs_TGF_DESeq_results_geneName.csv', 'r') as file:
reader = csv.reader(file, delimiter=";")
for row in reader:
struc={}
indice=0
for element in row:
struc[attributs[indice]]=element
indice+=1
print(struc)
mycol.insert_one(struc)
Représentation d’une donnée sur 57281 au total
{
"_id" : ObjectId("67c95492fcd9f3b2f67e8631"),
"ID" : "ENSG00000226777,3",
"Name" : "KIAA0125",
"baseMean" : "8.86271877039942",
"log2FoldChange" : "4.77052727744133",
"padj" : "0.000266037476676622",
"TGF_rep1" : "0",
"TGF_rep2" : "0",
"TGF_rep3" : "2.0227232449272",
"TGF_SM31_rep1" : "16.4122278619582",
"TGF_SM31_rep2" : "16.5666702377195",
"TGF_SM31_rep3" : "18.1746912777916"
}
Statistiques pour les valeurs non NA (18679)
>>> df2.describe()
baseMean log2FoldChange padj TGF,rep1 TGF,rep2 TGF,rep3 TGF,SM31,rep1 TGF,SM31,rep2 TGF,SM31,rep3
count 18679.000000 18679.000000 18679.000000 18679.000000 18679.000000 18679.000000 1.867900e+04 1.867900e+04 1.867900e+04
mean 1400.981008 -0.032196 0.419208 1419.357753 1408.611267 1404.150946 1.391443e+03 1.380072e+03 1.402251e+03
std 9234.981940 0.512314 0.351076 9057.133664 9010.878394 8729.792399 9.656131e+03 9.648963e+03 9.549623e+03
min 5.256422 -5.894301 0.000000 0.000000 0.000000 0.000000 0.000000e+00 0.000000e+00 0.000000e+00
25% 39.028457 -0.203786 0.039928 38.896284 39.872183 39.443103 3.829520e+01 3.823078e+01 3.808031e+01
50% 311.902495 0.005739 0.393300 310.286263 309.915606 310.488018 3.063616e+02 3.020231e+02 3.055079e+02
75% 1225.563792 0.189984 0.759990 1230.536976 1223.351078 1230.827095 1.221617e+03 1.218287e+03 1.229821e+03
max 986302.417185 4.770527 0.999992 935041.908875 937074.238843 898936.641787 1.052831e+06 1.067114e+06 1.026816e+06
Représentation graphique Graphe1
-
xAxisLeft
-
yAxisTop
- padj > 0.01 & Log2FoldChange < 1 & Log2FoldChange > -1
- padj > 0.01 & Log2FoldChange > 1 & Log2FoldChange < -1
- padj < 0.01 & Log2FoldChange < -1
- padj < 0.01 & Log2FoldChange > 1