Chapitre d’ouvrage

9. Étude de cas avec Spark ML

Pages 205 à 269

Citer ce chapitre


  • Jouin, R.
(2020). 9. Étude de cas avec Spark ML. Spark : Valorisez vos données en temps réel avec Spark ML et Hadoop (p. 205-269). Dunod. https://stm.cairn.info/spark--9782100794324-page-205?lang=fr.

  • Jouin, Romain.
« 9. Étude de cas avec Spark ML ». Spark Valorisez vos données en temps réel avec Spark ML et Hadoop, Dunod, 2020. p.205-269. CAIRN.INFO, stm.cairn.info/spark--9782100794324-page-205?lang=fr.

  • JOUIN, Romain,
2020. 9. Étude de cas avec Spark ML. In : Spark Valorisez vos données en temps réel avec Spark ML et Hadoop. Paris : Dunod. InfoPro, p.205-269. URL : https://stm.cairn.info/spark--9782100794324-page-205?lang=fr.

Notes

  • [1]
    Normalement, zéro !

Le data scientist est souvent amené à travailler avec beaucoup de bases de données et avec une grande variété de fichiers.
Par exemple, ici on a une arborescence de fichiers :La première chose à faire est de comprendre les liens entre ces données. Souvent les personnes du métier pensent connaître leur système d’information, mais ce n’est pas toujours le cas. Cette phase de compréhension de la structure du SI est importante. Dans le cas qui nous préoccupe, disons que le métier vous aide et vous donne les clefs des jointures entre les tables. Il vous donne des détails sur chacun des fichiers :
Souvent il y a des abréviations dans les noms de fichiers, ou les noms de colonnes. Je vous conseille très fortement d’en demander la signification : elles peuvent ne pas vouloir dire la même chose pour vous et pour votre client. Remplacer les abréviations par des noms en clair simplifie beaucoup la compréhension des données.À partir de ce descriptif vous allez avoir besoin de charger la donnée et d’en comprendre le contenu, pour vérifier aussi les dires de votre client.
Afin d’obtenir les mêmes résultats que dans le livre, ouvrez le tag « comprendre_la_donnee » du repo Git :
$git checkout tags/comprendre_la_donnee
On crée une session Spark :
from pySpark.sql import SparkSession
Spark = SparkSession.builder.getOrCreate()
On commence par visualiser la donnée pour comprendre ce que contiennent les bases.
Les données réelles ne sont jamais vraiment propres…


Date de mise en ligne : 01/06/2022

Ce chapitre est en accès conditionnel

Acheter cet ouvrage

26,99 €

256 pages, format électronique (HTML et feuilletage, par chapitre)
Membre d'une institution cliente ?