Canalblog
Suivre ce blog Administration + Créer mon blog

Projet Python (BBSG)

3 janvier 2010

Conclusion

Even if this work was complicated and asked time and energy, it completes our learning of Python language .

Moreover, talking about DNA chips, it shows us an other side of a famous technical in genomics, genomics (and bioinformatics) toward which we hope go in last year.

With its presentation and its content, we wish you like this blog and it gives you the desire to discover or to go into detail your knowledge about this computer langage.

If you have any questions or any comments, please review.

See you soon.

L & N

Publicité
3 janvier 2010

Conclusion

Bien que ce projet nous ait demandé beaucoup de temps et d'énergie, il nous a permis de compléter notre apprentissage du langage Python.

De plus, traitant des puces à ADN, il nous a permis de voir un autre aspect d'une technique bien connue en génomique, génomique (et bioinformatique) vers lesquelles nous souhaitons nous orienter l'an prochain.

Nous espérons que ce blog, par sa présentation et son contenu, vous aura plu et vous aura donné l'envie de découvrir ou d'approfondir vos connaissances sur ce langage informatique.

Si vous avez des questions ou des remarques, n'hésitez pas à nous laisser un commentaire.

A bientôt, ici ou ailleurs.

L & N

18 décembre 2009

Discussion

A little discussion about our work in order to reflect a little bit.

Statistics:

Looking at the number of deleted or duplicated fragments, it's already possible to see if these data and the spreading of the tumour are proportional. Indeed the stage of the disease is shown in the name of the tumour. So we can comparate the evolution of the number of 1 and -1 functions of stage (but also of the rank and of the statute of each BAC). When just one modification generate a tumour, we underline the consequences of this modified fragment and also on this case, it's interesting to compare this results with the tumour stage. It's the same thing when a fragment is more often modified than the others.

Washing and reliability:

9 are the fragments for which we have no data.
A nine in a deleted area can be considered like a deleted fragment, and a nine in a duplicated area can be considered like a duplicated fragment. 
A nine between two healthy fragments can't be considered like a healthy fragment. However in some files, the 9 in these healthy areas are numerous and create a background noise, even after the washing. We can wonder if this background noise distorts the analysis made from these files.

Quasi-implication and graph :

A deleted fragment can't never appear again, a duplicated fragment can't never come back to a normal stage and a duplicated fragment can't be totally deleted.
Nevertheless, in some cases, a tumour which implicate an other tumour, doesn't implicate in at 100 %. the starting hypothesis aren't always followed.
In a biologic point of view, these events are very infrequent. Indeed, the probability for a fragment to appear and disappear identically is very low (the probability for a fragment to be duplicated and that this position come back in a normal stage it's also low). But it's more infrequent than, after a duplication, each copy could be deleted.

Looking at the graph, we can see the evolution of the disease, from the minor stage to the terminal stage. These results can complete the correlation study between the stage of the disease and the evolution of the number of deleted and duplicated fragments for each (with a link with the results of the "Statistics" function).

Chromosomes:

We have the whole genome, but it's hard to find again the start and the end of chromosomes. It may be caused by telomere. Indeed, it's difficult to study and sequence these areas.

A little addition:

We wonder if the deletion of one fragment on a healthy cell can lead to a sudden cancer and if we can be sure that this fragment contains genes implied on cell multiplication or on apotosis. This solution is the most logical but there're other hypothesis:
- the deleted fragment contains the binding site of the transcription factor of a gene impliied in the cell multiplication or in the apoptosis. Without this site, even if the gene is here, it isn't functionnal.
-the deleted fragment contains a gene encodes for a transcription factor or a coactivator of the transcription of a gene implied on cell multiplication or on apotosis. Like before, even if the gene is here, it isn't activated.

17 décembre 2009

Discussion

A présent, voici la discussion qui pourra vous aider à mieux appréhender certains points de notre projet.

Statistiques :

En observant le nombre fragments supprimés ou multipliés pour chaque tumeur, il est déjà possible d'observer si ces valeurs sont proportionnelles à l'avancée de la maladie.
En effet, le stade de la maladie est indiqué dans le nom de la tumeur et on peut donc comparer l'évolution du nombre de 1 et de -1 en fonction du stade (mais aussi du grade et du statut de chaque BAC). Quand une seule altération est responsable d'une tumeur, on met en évidence l'importance du fragment altéré et dans ce cas aussi il est interessant de comparer ces résultats avec le stade de la tumeur. Il en va de même quand une position est plus souvent altérée que les autres.

Nettoyage et Fiabilité :

Les 9 sont les fragments pour lequels on n'a pas de données.
On part du principe qu'un 9 dans une plage de suppression peut être considéré comme un fragment supprimé et qu'un 9 dans une plage de multiplication peut être considéré comme un fragment multiplié.
Un 9 entre deux fragments sains ne peut pas être considéré comme un fragment sain. Le problème c'est que dans certains fichiers, les 9 dans ces zones saines sont assez nombreux et créent donc un bruit de fond même après avoir nettoyé les données.
On peut donc se demander si ce bruit de fond ne fausse pas les autres analyses qui sont faites à partir de ces fichiers.

Quasi-implication et Graphe :

On part du principe qu'un fragment supprimé ne pourra jamais réapparaître, qu'un fragment multiplié ne pourra jamais se retrouver dans un état normal et qu'un fragment multiplié ne peut pas être entièrement supprimé.
Or, dans certains cas, une tumeur qui en implique une autre ne l'implique pas à 100 pourcents. Les hypothèses de départ ne sont donc pas systématiquement respectées.
D'un point de vu biologique, ces événements sont extrêment rares. En effet, la probabilité qu'un fragment disparaisse et réapparaisse à l'identique est très faible (comme celle qu'un fragment soit multiplié et que ce soit justement à cette position qu'il y a un retour à l'état normal). Mais il est encore plus rare qu'un fragment soit multiplié et qu'en suite chaque copie soient supprimées.

En observant le graphe, on peut voir l'évolution de la maladie, de la tumeur qui représente le stade le moins avancé de la maladie à celle qui représente le stade le plus avancé de la maladie.
Ces résultats peuvent compléter l'étude de la corrélation entre le stade de la maladie et l'évolution du nombre de fragments supprimés et multipliés pour chaque tumeur (en les associant avec les résultats de la fonction "Statistiques").

Chromosomes:

Si l'on possède l'ensemble du génome mais que l'on a du mal à retrouver les débuts et la fin des chromosomes, c'est certainement par rapport aux téloméres.
En effet, ce sont des régions difficiles à étudier et à séquencer, de part leur structure (extrémité 3' sortante ect).

Autre:

On se demande si la suppression d'un seul fragment sur une cellule saine peut conduire à un cancer foudroyant et, si tel est le cas, si on peut être sûr que ce fragment contient des gènes impliqués dans la multiplication cellulaire ou dans l'apoptose. Bien entendu, cette solution serait la plus simple et elle est envisageable. Toutefois, d'autres hypothèses peuvent être émises:
- le fragment supprimé contenait le site de fixation du facteur de transcription d'un gène impliqué dans la multiplication cellulaire ou l'apoptose. Ainsi, en l'absence de ce site, bien que le gène soit encore présent, il ne sera pas fonctionnel.
- le fragment supprimé contenait un gène codant un facteur de transcription ou un coactivateur de la transcription d'un gène impliqué dans la multiplication cellulaire ou l'apoptose. Comme précedemment, bien que le gène soit encore présent, il ne sera pas activé.

12 décembre 2009

Help

How to use the programme :

When you have uncompressed the file, the programme you have to open is CGHChip.py with a terminal. 

Here, it's an help for a best understanding of our work.

Starting data:

Different kind of data are: 0(no modification), 1(duplication), -1(deletion) et 9(no data)
Meaning of the three values following the tumour name:

- stage (degree of tumourous invasion)
- rank (very differenciate, intermediate, few differenciate)
- statute of each BAC

Statistics:

Count duplicated, deleted and normal fragments for each tumour.
It also put up when just one modification has generated a tumour.
When a fragment is modified in more then 5% of the tumours or deleted or multiplied in more than 4% of the tumours, it return his index.

Washing:

Remove the "noise" (9 excess)

- Number of 9 between two 0 isn't significant.

- One 9 between two -1 can be replace by one -1.

- One 9 between two 1 can be replace by one 1.

Reliability :

For a file, say if the "washing hypothesis" is okay or not.

Quasi-Implication :

The user chooses the name of two tumours of which he wants to know the implication. He copies and pastes the fragments in the frame. The pattern is:
A group of  -1, 0, 1 et 9 separated by a gap and beginning with a gap. Example : \" -1 0 1 9\".
Starting hypothesis :
- A deleted fragment can't come out again
- A multiplied fragment can't never can't never come back in a normal stage
- A multiplied fragment can't be completely deleted
Knowledge of the succession of the health stage (from few advanced stage to terminal stage).
However, some results go against these hypothesis:
==> Definition of an implication rate.

Discussion :

For a best analysis of data.

Save as ... :

Save the results from a new file. The user can keep his results, save cleansed data and carry out his analysis from this file.

Delete :

Delete all the frame where the results are.

Chromosome counting :

- Positions in n-1 are the same.
- Positions in n are the same but are different from the positions in n-1.
- If there's a sudden change, it can be the beginning of a chromosome.
- N.B: the "noise" prevent finding all of them.

Evolution :

This function analyzes the two numbers following the name of the tumour (the stage and the rank).
- When the rank is 1 and the stage is 2, 3 or 4 : cancer is invasive, very differenciate stage, the tumour is malignant.
- When the rank is 2 and the stage is 1 : intermediate stage.
- On the other cases : cancer no invasive, the tumour is benign.

Graph :

This function put up two tables :
- The first contains a graphe which classifies the tumours according to them evolution. This filing is made according to two numbers following the name.
- The second contains un graphe a graphe which classifies the tumours according to the rate of spoiling of the fragments.
On this way, you can compare the two graphs and see if the evolution of the tumour follows the rate of spoiling.

Chip :

This function put up the data with a colour code :
- The blue spotlights represent the fragments whithout data.
- The red spotlights represent the deleted fragments.
- The yellow spotlights represent the fragments whithout modifications.
- The green spotlights represent the duplicated fragments.
Caution : for th big files, it could take a few second.

Publicité
12 décembre 2009

Article d'aide

Utilisation du programme :

Après avoir décompressé le fichier, le programme à lancer à partir d'un terminal est pucesCGH.py 

Vous trouverez ci dessous toute l'aide nécessaire afin de mieux comprendre le projet et sa structure.

Données de départ :

Les différents types de données sont: 0(pas d'altération), 1(duplication), -1(délétion) et 9(pas de données)
Signification des trois valeurs qui suivent le nom de la tumeur:
- le stade (degré d'invasion du cancer)
- le grade (très différencié, intermédiaire, peu différencié)
- le statut de chaque BAC

Statistiques :

Cette fonction compte les fragments dupliqués, supprimés et sans altération pour chaque tumeur.
Elle affiche aussi quand une seule altération est responsable de la tumeur.
Quand un fragment est altéré dans plus de 5% des tumeurs ou délété ou dupliqué dans plus de 4% des tumeurs, elle retourne sa position.

Nettoyage :

Le nettoyage des données sert à enlever le "bruit" (le surplus de 9).
On part de l'hypothèse que le nombre de 9 entre deux 0 n'est pas significatif.
On considère qu'un 9 entre deux -1 peut être remplacé par un -1.
On considère qu'un 9 entre deux 1 peut être remplacé par un 1.

Fiabilité :

Cette fonction dit si l'hypothèse formulée pour nettoyer les données est correcte pour un fichier donné.

Quasi-Implication :

L'utilisateur choisit le nom des deux tumeurs dont il veut connaître l'implication (les noms par défaut sont 1 et 2).
Il copie-colle les fragments dans les cadres prévus. Le format doit être le suivant :
suite de -1, 0, 1 et 9 séparés par un espace et avec un espace au début. Exemple : \" -1 0 1 9\".
Hypothèses de départ :
- Un fragment supprimé ne pourra jamais réapparaître
- Un fragment multiplié ne pourra jamais se retrouver dans un état normal
- Un fragment multiplié ne peut pas être entièrement supprimé
On peut ainsi déterminer la succession d'états de la maladie, d'un stade peu avancé au stade terminal.
On retrouve pourtant certains résultats qui vont contre ces hypothèses :
==> on définit donc un taux d'implication.

Discussion :

La discussion permet à l'utilisateur d'analyser les données plus en profondeur.

Enregistrer sous... :

Cette fonction permet à l'utilisateur d'enregistrer les résultats qu'il a obtenu dans un nouveau fichier.
L'utilisateur peut ainsi, en plus de conserver ses résultats, enregistrer les données nettoyées et faire ses analyses à partir de ce fichier.

Effacer :

Cette fonction efface tout ce qui se trouve dans le cadre où s'affichent les résultats.

Le décompte des chromosomes se fait de la façon suivante :

- Les positions en n-1 sont identiques entre elles
- Les positions en n sont identiques entre elles mais différentes des valeurs en n-1
- Si on a un brutal changement, cela peut indiquer le début d'un chromosome
- A noter: le "bruit" empêche de tous les trouver

Evolution :

Cette fonction analyse les deux nombres qui suivent le nom de chaque tumeur (le stade et le grade).
- Quand le grade est égal à 1 et le stade est égal à 2, 3 ou 4 : le cancer est invasif et est a un stade tres differencie, il a envahi le muscle lisse, la tumeur est maligne.
- Quand le grade est égal à 2 et le stade est égal à 1 : stade intermediaire, depassement de la membrane basale mais pas d'invasion du muscle lisse.
- Dans les autres cas : cancer non-invasif, il ne depasse pas la membrane basale, La tumeur est benigne.

Graphe :

Cette fonction affiche deux tableaux :
- Le premier contient un graphe qui classe les tumeurs en fonction de  leur évolution. Ce classement est fait par rapport aux deux nombres qui suivent son nom.
- Le second contient un graphe qui classe les tumeurs en fonction du taux d'altération des fragments.
De cette façon, il est possible de comparer les deux graphes et de voir si l'évolution de la tumeur suit le taux d'altération.

Puce :

Cette fonction affiche les données avec un code de couleur :
- Les spots bleus représentent les fragments pour lesquels il n'y a pas de données.
- Les spots rouges représentent les fragments délétés.
- Les spots jaunes représentent les fragments sains.
- Les spots verts représentent les fragments multipliés.
Attention : pour les gros fichiers, la puce risque de mettre quelques secondes avant de s'afficher.

11 décembre 2009

Aim

First, we're going to talk about the aim of our work. We have to analyse data from CGH chips. This work has five parts: reading file, algorithmic, validation of our hypothesis, comparison and graphic interface.

Data come from DNA of tumourous cell of bladder, analyzed by comparative hybridization.

See you soon in the next article.

N & L

11 décembre 2009

But du projet

Avant toute chose, nous allons vous présenter succintement le but de notre projet. Il faut analyser des données issues de profils de puces CGH. Celui-ci se découpe en cinq parties différentes (lecture des fichiers, algorithmique, validation des hypothèses de travail, comparaisons et interface graphique).

Les données proviennent de l'ADN d'un ensemble de cellules tumorales de la vessie de différents individus, analysées par hybridation comparative génomique.

A bientôt pour le prochain article.

N & L

11 décembre 2009

Introduction

Welcome everybody!

We're two students in bioinformatic and this blog is an addition for our work (Python language). Here, you can find help, discussion and, maybe, some other things.

We hope we're enjoying here.

Nadia and Laetitia.

11 décembre 2009

Introduction

Bonjour à tous!!

Nous sommes deux élèves en M1 BBSG et ce blog est un complément à notre projet de programmation structurée en langage Python. Ici sera référencé une aide, une discussion et peut-être quelques autres catégories.

En espérant que vous passerez un agréable moment en parcourant ce blog,

Nadia et Laetitia.

Publicité
Projet Python (BBSG)
  • Un petit blog en rapport avec notre projet de programmation structurée en langage Python. Bonne lecture à tous et n'hésitez pas à nous laisser un commentaire! A little blog for our work in Python language. Enjoy and review!
  • Accueil du blog
  • Créer un blog avec CanalBlog
Publicité
Newsletter
Publicité