Chapitre 12. Manipuler et modifier les données
- Par Bill Lubanovic
Pages 219 à 246
Citer ce chapitre
- LUBANOVIC, Bill,
- Lubanovic, Bill.
- Lubanovic, B.
Citer ce chapitre
- Lubanovic, B.
- Lubanovic, Bill.
- LUBANOVIC, Bill,
Jusqu’à présent, nous avons principalement parlé du langage Python lui-même : ses types de données, ses structures de code, sa syntaxe, etc. Le reste de ce livre traite de leur application à des problèmes du monde réel.
Dans ce chapitre, vous apprendrez de nombreuses techniques pratiques pour maîtriser les données. Parfois, cela s’appelle la fusion de données, ou, dans le jargon des bases de données, l’ETL, acronyme pour Extract/Transform/Load (en français extraction/transformation/chargement). Bien que les manuels de programmation ne couvrent généralement pas le sujet de manière explicite, les programmeurs passent beaucoup de temps à essayer de structurer les données sous une bonne forme selon leurs besoins.
La spécialité appelée science des données (en anglais, data science) est devenue très populaire ces dernières années. Un article de la Harvard Business Review a qualifié le métier de data scientist de « travail le plus sexy du 21e siècle ». Si cela fait allusion à la demande et à de bons salaires, c’est d’accord, mais il s’agit aussi d’un travail plus que fastidieux. La science des données va au-delà des exigences ETL des bases de données, impliquant souvent l’apprentissage automatique pour découvrir des informations qui n’étaient pas visibles à l’œil nu.
Je commencerai par les formats de données basiques, puis j’aborderai les nouveaux outils les plus utiles pour la science des données.
Les formats de données se divisent à peu près en deux catégories …
Date de mise en ligne : 23/06/2023
Ce chapitre est en accès conditionnel
Acheter ce chapitre
3,00 €