Google hat mit dem eigenen Diversitätsfilter zu kämpfen

cron@feddit.de · 7 months ago

Google hat mit dem eigenen Diversitätsfilter zu kämpfen

De_Narm@lemmy.world · edit-2 7 months ago

Ja, weil die Trainingsdaten in vielen Fällen einen Bias für “weiß” haben. Weder das Model noch die extra Layer für Diversität kann unterscheiden ob andere Hautfarben seltener oder historisch falsch sind. Muss es auch nicht. Du hast nicht explizit nach etwas gefragt, Google fügt etwas hinzu um den Bias auszugleichen. Ebenso wäre es okay mehr weiße und asiatische Spieler in einen Prompt zur NBA einzufügen. Solang sie nicht explizite Angaben aus meinem Prompt durch divers ersetzen sehe ich hier kein Problem außer Rassismus beim Nutzer. Wenn ich historisch akkurate Bilder generieren will, dann muss ich eben alles historisch akkurat in den Prompt schreiben.

tryptaminev 🇵🇸 🇺🇦 🇪🇺@feddit.de · 7 months ago

Das ist doch auch nur Rassismus mit extra Schritten.

Wenn es “divers” über einen historisch weißen Prompt drüberklatscht, dann tuts das auch über einen historisch asiatischen, arabischen, afrikanischen… Damit werden dann in Europa und den USA marginalisierte Gruppen genauso diskriminiert. Beim Beispiel schwarze Wikinger kann man eben auch die Frage stellen, warum Schwarze mit einer Bande europäischer Räuber und Mörder in Verbindung gebracht werden?

Garbage in Garbage out. Das Modell ist auf schlechten Daten trainiert und im Nachhinein daran rumzupfuschen macht es nicht besser. Es ist auch quasi unmöglich ein Modell zuverlässig nachzujustieren, und nicht wie hier den gegenteiligen Effekt zu erlangen.

Der richtige Weg wäre zu sagen: “Ja unsere Trainingsdaten sind schlecht. Wir ziehen das Produkt zurück, oder versehen es mit sehr deutlichen Warnhinweisen, während wir bessere Trainingsdaten sammeln und das Modell neu trainieren.”

De_Narm@lemmy.world · 7 months ago

Beim Beispiel schwarze Wikinger kann man eben auch die Frage stellen, warum Schwarze mit einer Bande europäischer Räuber und Mörder in Verbindung gebracht werden?

Eben nicht. Es gibt keine Verbindungen. Es kommt willkürlicher Kram heraus, der keinerlei sinnig Inhalt hat. Alles was die Layer macht ist dafür zu sorgen, dass nicht jeder Mensch auf jedem Bild weiß mit Penis ist und daran ist nichts verkehrt.

Der richtige Weg wäre zu sagen: “Ja unsere Trainingsdaten sind schlecht. […]"

Sind sie nicht. Es gibt diesen Bias mehr oder weniger genauso in der Realität. Whitewashing ist jetzt kein neues Konzept, gerade historisch betrachtet. Du kannst den Algorithmus nur mit Daten füttern, die du auch hast. Hier jetzt gegen zu steuern indem du manchmal den Prompt mit dem Begriff divers erweiterst tut niemanden weh.

Garbage in Garbage out. Das Modell ist auf schlechten Daten trainiert und im Nachhinein daran rumzupfuschen macht es nicht besser.

Niemand pfuscht am Modell. Es wird einfach der Prompt erweitert um Dinge zu spezifizieren, die vom Nutzer offen gelassen wurden (nehme ich an, ansonsten sollte man es natürlich lassen) um den Bias des Modells ausgleichen. Der Bias existiert nur, wenn der Prompt nichts dazu sagen, also wird direkt einem Problem entgegen gewirkt. Ist in meinen Augen nicht viel anders als den Prompt vorher auf Rechtschreibung zu überprüfen oder das Entfernen von Namen realer Personen. Natürlich könnte man “Garbage in Garbage out” auch auf den Prompt und nicht die Trainingsdaten beziehen - aber warum nicht ein paar einfache Checks drüber laufen lassen, wenn es recht simpel ist?