Cast List: Data Contamination

Data Contamination

Linear Digressions

Episode: Data Contamination
Website: Linear Digressions
Feed URL: http://feeds.feedburner.com/udacity-linear-digressions?format=xml
Duration: 00:20:58
Published: 2016-05-02 04:24

Supervised machine learning assumes that the features and labels used for building a classifier are isolated from each other--basically, that you can't cheat by peeking. Turns out this can be easier said than done. In this episode, we'll talk about the many (and diverse!) cases where label information contaminates features, ruining data science competitions along the way. Relevant links: https://www.researchgate.net/profile/Claudia_Perlich/publication/221653692_Leakage_in_data_mining_Formulation_detection_and_avoidance/links/54418bb80cf2a6a049a5a0ca.pdf

Data Contamination

Linear Digressions

Next Episodes

Model Interpretation (and Trust Issues) @ Linear Digressions

Updates! Political Science Fraud and AlphaGo @ Linear Digressions

Ecological Inference and Simpson's Paradox @ Linear Digressions

Discriminatory Algorithms @ Linear Digressions

Recommendation Engines and Privacy @ Linear Digressions