Diskriminierung durch Nicht-Diskriminierung

Da hatte ich folgenden Tweet in der Timeline:

Nun. Es geht darum, dass ein Algorithmus für die Rückfallprognose bei Straftätern anscheinend dafür sorgt, dass people of colour potentiell schlechtere Rückfallprognosen erhalten als Weiße. Liest man jedoch die Quelle, stellt sich heraus, dass die Datengrundlage für den Scoring-Algorithmus ein Fragebogen mit 137 Fragen ist, bei dem die Ethnie explizit nicht abgefragt wird:

Northpointe’s core product is a set of scores derived from 137 questions that are either answered by defendants or pulled from criminal records. Race is not one of the questions.

Quelle

Anstatt daraus zu schließen, dass der Algorithmus (der vermutlich auf machine learning basiert) „diskriminierend“ ist (im soziologisch/ sozialen Sinne; im mathematisch-technischen Sinne ist die eigentliche Aufgabe eines jeden Scoring-Algorithmus, zu diskriminieren), ist die Datengrundlage der Lern- und Scoringdatenmenge zu hinterfragen.

Denn Offensichtlich haben das gleiche Umfeld auf people of colour und Weiße einen unterschiedlichen Einfluss, aber dadurch, dass dieses Merkmal im Fragebogen nicht abgefragt wird, kommt der Algorithmus zu einer suboptimalen Prognose.