* -->Puis, cliquez sur ‘A partir d’un fichier texte/CSV’ ; repérez le fichier ‘referentiel-gares-voyageurs.csv’ et importez-le ;
-->Une fenêtre aperçu s’ouvre nous montrant le résultat du traitement par Excel si nous prenons comme délimiteur de données le symbole : _ _ _ _ _ _ _ _ _
-->Si on utilise le délimiteur ‘virgule’, on obtient _ _ colonnes, et certaines données sont _ _ _ _ _ _ _ _ avec d’autres (donc pas intéressant !) ;
-->Si on utilise le délimiteur ‘espace’, qu’observez-vous ? :
* -->Re-séléctionnez le délimiteur le mieux adapté :
* Certains mots sont mal écrits, on a perdu les _ _ _ _ _
--> Dans le menu déroulant ‘Origine du fichier’, choisir, tout en bas : 65001 unicode (UTF-8) : l’UTF-8 permet de gérer les accents
* Et cliquez sur ‘Charger’.
--> Le tableau se charge. Regardez à droite, combien de ligne de données contient ce tableau ? :
• Que remarquez-vous au niveau de la présentation des descripteurs en ligne 1 ? :
* -->Cliquer sur le triangle du descripteur en colonne 2 nommé : ‘intitulé de gare’, et écrire dans la barre de recherche du menu déroulant qui s’affiche : « Reims »-->Entrée ; Qu’observez-vous ? :
* --> Cliquer sur l’entonnoir du même descripteur, et dans le menu déroulant, cliquer sur ‘effacer le filtre’ ;
--> Déplacez le tableau en colonne 15, et demandez les données correspondant au département de la Marne (51) : vous observez _ _ gares trouvées. (chiffre vu en bas à gauche de votre écran)
• Sans revenir en arrière, passez en colonne 22, cliquez sur le triangle du descripteur ‘niveau de service’ et décochez le chiffre 1, puis faîtes ‘ok’ ; qu’observez-vous ? :
-->Ainsi, avec Excel, on peut croiser des requêtes sur des données en agissant sur le tri des descripteurs.
Cherchez ce qu’est une requête.
Fermez Excel (pas besoin d’enregistrer).
Avec Python, nous allons pouvoir travailler les Données plus librement.
--> Récupérez le fichier Juyter nommé ‘4_2_1 CSV_Jupyter.ipynb’, et placez le dans un dossier (par exemple : SNT/Donnees) ;
--> Récupérez le fichier nommé ‘villes_virgule.csv’, et placez le dans le même dossier pour que le programme le trouve ;
--> Dans un premier temps, faîtes un clic-droit sur le fichier nommé ‘villes_virgule.csv’, et choisissez ‘Ouvrir avec’, puis choisissez l’application Word (ne pas cocher la case : toujours avec cette application !) ;
--> Faîtes en sorte que le fichier s’ouvre en Unicode (UTF-8)
* Quel est le délimiteur de données ? :
* Le nombre de page est de : _ _ _ ; le nombre de mots est de : _ _ _ _ _ ;
--> C’est bien de la Data (Fermez Word sans enregistrer)
--> Ouvrir EduPython, puis le serveur Jupyter en prenant SNT/Donnees comme répertoire de base
--> Ouvrez alors, dans Jupyter, le fichier ‘4_2_1 CSV_Jupyter.ipynb’;
--> Commençons par étudier la 1ère cellule de code nommée ‘Script 1’ :
--> Dans ce programme, quelle est la commande pour :
• récupérer le module ‘pandas’ : _ _ _ _
• lire un fichier de format .csv : _ _ _ _ _
--> Dans quelle variable le contenu du fichier csv est placé ? : _ _ _ _
--> Quelle est la commande pour visualiser le contenu d’une variable : _ _ _ _
--> A présent, lançons le script 1 (barre bleue à gauche du code !) : cliquez sur Exécuter (bouton Play :45sec. d’attente..) ;
-->Combien de lignes et de colonnes contient ce tableau de données ? :
--> Dans le tableau affiché sous le script1, qu’observez-vous ? :
--> Lorsqu’il y a trop de données à afficher, Python crée des raccourcis pour ne pas encombrer la cellule de résultats.
* Exécutez le script nommé ‘Script 2’ : Qu’observez-vous comme résultats ? :
* Qu’en déduisez-vous ? :
--> Exécutez à présent le script nommé ‘Script 3’ ;
* Ecrire ‘paris’, puis ‘Paris’ ; qu’observez-vous ? :
* A présent, demandez une ville de votre choix ;
J’ai choisi la ville de : _ _ _ _ _ _ _ ; surface = _ _ _ km² ; Altitude_max=_ _ _ mètres.
* Faîtes ‘ q ‘ pour quitter.
--> Exécutez à présent le script nommé ‘Script 4’ permettant de réaliser une requête sur l’altitude :
* Ecrire l’altitude 1600 -->Entrée ; J’observe _ _ _ villes ayant cette altitude minimale.
* Copiez la ville qui a l’altitude la plus élevée ; Stoppez le script 4 (écrire 0 -->Entrée), remettez à zéro les cellules (dans la barre de menu) (Kernel-->Restart & clear Output-->Restart & clear all outputs), puis Exécutez (Bouton Play) le script 3 en collant (Ctrl V) la ville la plus élevée :
--> Donnez son code postal : _ _ _
--> Son nombre d’habitant en 2012 : __ _ _ _
--> Sa surface : _ _ _ _
Ainsi, Python et son module pandas sont parfaitement adapté pour analyser des données.