Skip to content
Skip to content
DataCraft
Open Button
Accueil
Ressources
MODULE DATA
Chargement et Acquisition de Données
Lecture de fichiers courants
Lire un fichier CSV
Lire un fichier JSON
Lire un fichier Excel
Lire un fichier Parquet
Lire un fichier XML
Connexion à une base de données
Connexion à une base SQL
Connexion à une base NoSQL
Connexion via ORM et bibliothèques Python
Sécurisation de la connexion
Web Scraping
Scraper une page web avec BeautifulSoup
Scraper une page web avec Scrapy
Récupérer des données avec Selenium
Gérer les requêtes HTTP avec Requests
Gérer les headers et user-agents pour éviter les blocages
Extraire des données d’une API avec JSON
APIs et Services Web
Consommer une API REST
Consommer une API GraphQL
Acquisition en temps réel
Utilisation de Kafka pour le streaming de données
Utilisation de MQTT pour l’IoT et les flux de données
Utilisation des WebSockets pour la communication en temps réel
Exploration et Nettoyage des Données
Affichage des premières lignes
Afficher les premières lignes d’un DataFrame (head())
Afficher les dernières lignes d’un DataFrame (tail())
Détection et traitement des valeurs manquantes
Détecter les valeurs manquantes (isnull(), notnull())
Compter les valeurs manquantes (isnull().sum())
Supprimer les valeurs manquantes (dropna())
Remplacer les valeurs manquantes (fillna())
Imputation avancée des valeurs manquantes (SimpleImputer de Scikit-learn)
Suppression des doublons
Détecter les doublons (duplicated())
Supprimer les doublons (drop_duplicates())
Correction des incohérences (normalisation des formats)
Normalisation des chaînes de caractères
Conversion des types de données
Normalisation des dates
Traitement des valeurs numériques incohérentes
Gestion des valeurs aberrantes
Détection des valeurs aberrantes avec l’IQR (Interquartile Range)
Détection des valeurs aberrantes avec le Z-score
Winsorization des données
Conversion des types de données
Conversion en types numériques
Conversion en chaîne de caractères
Conversion en dates
Conversion en catégories
Transformation et Préparation des Données
Filtrage des données
Filtrer avec query()
Filtrer avec loc[] (par étiquette)
Filtrer avec iloc[] (par position)
Tri et classement
Trier les valeurs d’une colonne (sort_values(by=’colonne’))
Trier les valeurs par ordre décroissant (sort_values(by=’colonne’, ascending=False))
Trier par plusieurs colonnes (sort_values(by=[‘colonne1’, ‘colonne2’]))
Gérer les valeurs manquantes lors du tri (sort_values(na_position=’first’/’last’))
Trier un DataFrame en fonction de l’index (sort_index())
Regroupement et agrégation
Regrouper les données par une colonne (groupby(‘colonne’))
Appliquer une fonction d’agrégation sur un groupe
Regrouper par plusieurs colonnes
Accéder aux groupes individuellement
Transformer les données après regroupement
Créer un tableau croisé dynamique
Gérer les valeurs manquantes dans un pivot_table
Création de nouvelles colonnes
Créer une nouvelle colonne avec une opération simple
Appliquer une transformation avec apply() sur une colonne
Appliquer apply() sur plusieurs colonnes
Utiliser map() pour transformer une colonne
Utiliser lambda pour créer une nouvelle colonne
Créer une colonne conditionnelle avec np.where()
Créer une colonne conditionnelle avec apply() et lambda
Encodage des variables catégorielles
Encodage avec LabelEncoder
Encodage avec map() pour un mapping manuel
Encodage avec pd.Categorical().codes
Encodage One-Hot avec pd.get_dummies()
Encodage One-Hot avec OneHotEncoder
Encodage des variables ordinales avec OrdinalEncoder
Standardisation et normalisation
Différence entre standardisation et normalisation
Normalisation des données avec MinMaxScaler
Standardisation des données avec StandardScaler
Appliquer une transformation uniquement sur certaines colonnes
Inverser la transformation pour retrouver les valeurs originales
Standardisation et normalisation avec Pipeline
Utilisation de RobustScaler pour les données avec outliers
Feature Engineering
Gestion des valeurs inconnues avec handle_unknown dans OneHotEncoder
Extraction de l’année, du mois, du jour à partir d’une date
Extraction des caractéristiques textuelles (longueur, présence de mots-clés, etc.)
Création de variables binaires basées sur une condition
Utilisation de PolynomialFeatures pour générer des interactions
Discrétisation des valeurs continues (pd.cut, pd.qcut)
Encodage des variables temporelles (sinus et cosinus pour les cycles)
Feature Selection (sélection des variables pertinentes)
Transformation de texte
Tokenization avec split() (approche basique)
Tokenization avec nltk.word_tokenize()
Tokenization avec spacy
Stemming avec nltk.PorterStemmer
Stemming avec nltk.SnowballStemmer
Lemmatization avec nltk.WordNetLemmatizer
Lemmatization avec spacy
Suppression des stopwords avec nltk
Vectorisation avec CountVectorizer (Bag of Words)
Vectorisation avec TfidfVectorizer (TF-IDF)
Fusion et Manipulation Avancée
Concaténation et fusion de datasets
Concaténation verticale de DataFrames (concat avec axis=0)
Concaténation horizontale de DataFrames (concat avec axis=1)
Fusion de DataFrames avec merge() sur une colonne commune
Fusion avec merge() et différents types de jointures (inner, outer, left, right)
Fusion sur plusieurs colonnes avec merge()
Utilisation de join() pour fusionner sur l’index
Gérer les doublons après une fusion (drop_duplicates())
Remplissage des valeurs manquantes après une fusion (fillna())
Transposition et pivotement
Manipulation des séries temporelles
Regroupement multi-index
Gestion des données déséquilibrées
Sauvegarde et Exportation des Données
MODULE ANALYSE
Introduction à l’analyse de données
Analyse descriptive
Analyse exploratoire des données (EDA)
Analyse inférentielle
Analyse de séries temporelles
Bonnes pratiques et pièges à éviter
MODULE VISUALISATION
Introduction à la Visualisation de Donnée
Visualisation avec Matplotlib
Visualisation avec Seaborn
Visualisation Interactive avec Plotly
Storytelling et DataViz pour la Communication
Visualisation de Données Géospatiales
Automatisation et Personnalisation des Visualisations
MODULE IA
Fondamentaux de l’Intelligence Artificielle
Machine Learning
Deep Learning
IA Générative
Évaluation et Éthique
Déploiement et MLOps
Close Button
LIME (Local Interpretable Model-agnostic Explanations)