Les méthodes statistiques sont un élément clé de la science des données, mais peu de data scientists ont une formation formelle en statistique.. Les cours et livres sur les statistiques de base abordent rarement le sujet du point de vue de la science des données.. La deuxième édition de ce guide populaire ajoute des exemples complets en Python, fournit des conseils pratiques sur l'application de méthodes statistiques à la science des données, vous dit comment éviter leur mauvaise utilisation et vous donne des conseils sur ce qui est important et ce qui ne l'est pas.
De nombreuses ressources de science des données intègrent des méthodes statistiques mais manquent d'une perspective statistique plus approfondie.. Si vous connaissez les langages de programmation R ou Python et avez une certaine exposition aux statistiques, cette référence rapide comble le fossé dans un format accessible et lisible.
Avec ce livre, vous apprendrez:
Pourquoi l'analyse exploratoire des données est une étape préliminaire clé de la science des données
Comment l'échantillonnage aléatoire peut réduire les biais et produire un ensemble de données de meilleure qualité, même avec le Big Data
Comment les principes de la conception expérimentale apportent des réponses définitives aux questions
Comment utiliser la régression pour estimer les résultats et détecter les anomalies
Techniques de classification clés pour prédire à quelles catégories un enregistrement appartient
Méthodes d'apprentissage automatique statistique qui « apprennent » à partir des données
Méthodes d'apprentissage non supervisé pour extraire du sens à partir de données non étiquetées
A propos de l'auteur
Peter Bruce est le fondateur et directeur académique de l'Institute for Statistics Education chez Statistics.com, qui propose environ 80 cours de statistique et d'analyse, dont environ la moitié sont destinés aux data scientists.. Il est l'auteur ou le co-auteur de plusieurs livres en statistique et en analyse, et il a obtenu sa licence à Princeton, et ses masters à Harvard et à l'Université du Maryland.
^
Andrew Bruce, chercheur principal chez Amazon, a plus de 30 ans d'expérience en statistique et en science des données dans le milieu universitaire, gouvernemental et commercial.. Co-auteur de Applied Wavelet Analysis with S-PLUS, il a obtenu sa licence à Princeton, et son doctorat en statistique à l'Université de Washington
^
Peter Gedeck, Data Scientist Senior chez Collaborative Drug Discovery, se spécialise dans le développement d'algorithmes d'apprentissage automatique pour prédire les propriétés biologiques et physicochimiques des candidats médicaments.. Co-auteur de Data Mining for Business Analytics, il a obtenu des doctorats en Chimie de l'Université d'Erlangen-Nürnberg en Allemagne et en Mathématiques de la Fernuniversität Hagen, Allemagne.