MARDI 28
8h30 – 9h00 : Accueil, introduction et mot d’ouverture |
THÉMATIQUE FIABILITÉ9h00 – 9h10 :
9h00 – 10h10 :
10h10 – 10h35 :
10h35 – 11h00 :
|
11h00 -11h30 : Pause réseautage (avec poster des étudiants) |
11h30 – 12h30 : Table ronde scientifique sur la fiabilité (recherche et industrie)
|
12h30 – 14h00 : Pause dîner |
THÉMATIQUE CONFIDENTIALITÉ14h00 – 14h10 :
14h00 – 15h10 :
15h10 – 15h35 :
15h35 – 16h00 :
|
16h00 – 16h30 : Pause réseautage |
16h30 -17h30 : Thème 2 – Table ronde scientifique sur la confidentialité (recherche, industrie)
|
MERCREDI 29
8h30 – 9h00 : Accueil, introduction et mot d’ouverture |
THÉMATIQUE ROBUSTESSE9h00 – 9h10 :
9h00 – 10h10 :
Titre : Une vérification automatique de la robustesse de l’échantillon fini : L’élimination d’un peu de données peut-elle modifier les conclusions ? Résumé : Les praticiens analysent souvent un échantillon de données dans le but d’appliquer les conclusions à une nouvelle population. Par exemple, si les économistes concluent que le microcrédit est efficace pour réduire la pauvreté sur la base des données observées, les décideurs politiques peuvent décider de distribuer le microcrédit dans d’autres lieux ou dans les années à venir. Généralement, les données originales ne constituent pas un échantillon aléatoire parfait de la population où la politique est appliquée – mais les chercheurs peuvent se sentir à l’aise pour généraliser quand même, tant que les écarts par rapport à l’échantillonnage aléatoire sont faibles, et que l’impact correspondant sur les conclusions est également faible. Inversement, les chercheurs pourraient s’inquiéter si une très petite proportion de l’échantillon de données était à l’origine de la conclusion initiale. Nous proposons donc une méthode permettant d’évaluer la sensibilité des conclusions statistiques à la suppression d’une très petite partie de l’ensemble de données. La vérification manuelle de tous les petits sous-ensembles de données n’étant pas réalisable sur le plan informatique, nous proposons une approximation basée sur la fonction d’influence classique. Notre méthode est automatiquement calculable pour les estimateurs courants. Nous fournissons des bornes d’erreur à échantillon fini sur les performances de l’approximation et une borne inférieure exacte et peu coûteuse sur la sensibilité. Nous constatons que la sensibilité est déterminée par un rapport signal/bruit dans le problème d’inférence, qu’elle ne disparaît pas asymptotiquement et qu’elle n’est pas influencée par une mauvaise spécification. Empiriquement, nous constatons que de nombreuses analyses de données sont robustes, mais que les conclusions de plusieurs articles économiques influents peuvent être modifiées en supprimant (beaucoup) moins de 1 % des données. 10h10 – 10h40 :
10h40 – 11h00 :
|
11h00 -11h30 : Pause réseautage (avec poster des étudiants) |
11h30 – 12h30 : Table ronde scientifique sur la robustesse (recherche et industrie)
|
12h30 – 14h00 : Pause dîner |
THÉMATIQUE EXPLICABILITÉ14h00 – 14h10 :
14h10 – 15h10 :
Titre : Les amis ne laissent pas les amis déployer des modèles de boîte noire : L’importance de l’intelligibilité dans l’apprentissage automatique Résumé : Chaque ensemble de données est imparfait, souvent de manière surprenante et difficile à anticiper. Malheureusement, la plupart des méthodes d’apprentissage automatique sont des boîtes noires et fournissent peu d’informations sur ce qu’elles ont appris. Nous avons développé une méthode d’apprentissage en boîte de verre appelée EBM (Explainable Boosting Machines) qui est aussi précise que les méthodes en boîte noire telles que les arbres boostés par le gradient, les forêts aléatoires et les réseaux neuronaux, tout en étant encore plus intelligible que les modèles linéaires tels que la régression logistique. Dans mon exposé, je présenterai une introduction à l’apprentissage en boîte de verre et aux EBM, ainsi qu’un certain nombre d’études de cas où les modèles en boîte de verre découvrent des défauts surprenants dans les données qui doivent être corrigés avant le déploiement, mais qui n’auraient pas été découverts avec les méthodes d’apprentissage en boîte de verre. Chaque ensemble de données est imparfait – vous avez besoin de l’apprentissage automatique en boîte de verre pour détecter et corriger les défauts. 15h10 – 15h40 :
Title: Why Random Forests Work and Why That’s a Problem 15h40 – 16h00 :
|
16h00 – 16h30 : Pause réseautage |
16h30 -17h30 : Thème 2 – Table ronde scientifique sur l’explicabilité (recherche, industrie)
16h30 -17h30 : Événement de clôture |