Fontanefans Schnipsel: Informationen, die wir bei der Informationsflut meist übergehen

Mittwoch, 11. Februar 2026

Informationen, die wir bei der Informationsflut meist übergehen

Z.B. dies zur Ukraine

https://finanzmarktwelt.de/ukraine-drohender-staatsbankrott-241019/

https://www.dw.com/de/ukraine-vor-dem-staatsbankrott/a-17450801

https://www.stern.de/politik/ausland/ukrainekrieg--was-der-eu-kompromiss-zum-russischen-vermoegen-vorsieht-36977100.html

(angeboten von Gentleman711 auf gutefrage.net)

Bekanntlich können Menschen auch ihr eigenes Lebenswerk nicht übersehen. Und die KI kann uns nur das liefern, wonach wir fragen. Verstehen kann sie ohnehin nicht.

Das sind natürlich Binsenwahrheiten. Aber einem ganzen Leben in einer Autobiographie Sinn zu geben, erfordert Arbeit, die nicht unbedingt nötig ist, sofern man im Alltag genügend anderes Sinnvolle tun kann.

Zugegeben: Auch Goethe hat (z.B.) mit Dichtung und Wahrheit seinem Leben einen Sinn gegeben, aber er hat auch Faust II geschrieben und so vielen Interpreten und Biographen Stoff geliefert getreu dem Satz "Wenn die Könige bauen, haben die Kärrner zu tun.“ aus den Xenien. Schiller hatte keinen Eckermann und weniger Kärrner-Interpreten.

Das heißt nicht, dass ich für deine Verstehenshilfen nicht dankbar wäre. Ich behaupte nur, dass die KI das nicht besser kann als wir.

Da die KI nicht selber sehen kann, arbeiten im Globalen Süden viele (mag sein, dass eine KI das beziffern kann) in Akkordarbeit, die mit Cent-Bruchteilen entlohnt wird, daran, Gegenstände und Vorgänge in Videos zu benennen. Das ermöglicht, dass sie so programmiert werden kann, dass sie in Alltagssituationen sinnvoll reagieren kann. Auch das ist inzwischen eine Binsenwahrheit, die aber Schüler auch erst einmal aufnehmen müssen, um die menschliche Arbeit, die hinter KI-Leistungen steht, würdigen zu können.

(angeboten von apanat in einem Kommentar zu jeanpol)

Dazu die KI gemini:

Damit eine KI – etwa in einem autonomen Auto oder einem Roboter – Videobilder zur Selbststeuerung nutzen kann, muss sie den zweidimensionalen Pixelstrom in ein dreidimensionales Verständnis der Welt übersetzen. Dieser Prozess wird oft als Computer Vision bezeichnet.

Hier sind die entscheidenden Schritte, wie aus bunten Punkten auf einem Sensor eine Handlungsanweisung wird:

1. Objekterkennung und Klassifizierung

Zuerst muss die KI wissen, was sie sieht. Ein neuronales Netz analysiert jedes Einzelbild (Frame) des Videos.

Bounding Boxes: Die KI zieht Rahmen um erkannte Objekte (z. B. „Fußgänger“, „Stoppschild“, „Baustelle“).
Semantische Segmentierung: Hier geht die KI tiefer und ordnet jedem einzelnen Pixel eine Kategorie zu. So weiß sie genau, wo der „Asphalt“ aufhört und der „Bürgersteig“ beginnt.

2. Tiefenschätzung und 3D-Rekonstruktion

Ein Videobild ist flach, aber Steuerung findet im Raum statt. Die KI muss Distanzen berechnen:

Stereo-Vision: Wenn zwei Kameras vorhanden sind, nutzt die KI die Disparität (den leichten Versatz), ähnlich wie das menschliche Auge.
Structure from Motion (SfM): Bei nur einer Kamera nutzt die KI die Eigenbewegung. Da sich nähere Objekte im Video schneller bewegen als ferne, kann sie eine Tiefenkarte berechnen.
Monokulare Tiefenschätzung: Moderne KIs „raten“ die Tiefe basierend auf Erfahrungswerten (z. B. „Ein Auto dieser Größe muss etwa 20 Meter weit weg sein“).

3. Optischer Fluss (Bewegungsanalyse)

Für die Selbststeuerung ist nicht nur wichtig, wo etwas ist, sondern wohin es sich bewegt. Die KI vergleicht aufeinanderfolgende Bilder, um den optischen Fluss zu berechnen. Dadurch erkennt sie:

Vektoren: In welche Richtung und mit welcher Geschwindigkeit bewegen sich andere Verkehrsteilnehmer?
Time-to-Collision: Wie lange dauert es bei aktueller Geschwindigkeit, bis ein Objekt berührt wird?

4. Sensor-Fusion und Lokalisierung (SLAM)

Das Videobild allein reicht oft nicht aus. Die KI kombiniert die visuellen Daten mit anderen Quellen:

SLAM (Simultaneous Localization and Mapping): Die KI erstellt gleichzeitig eine Karte der Umgebung und verortet sich selbst darin.
Abgleich mit Sensoren: Die visuellen Daten werden mit Radar- oder LiDAR-Daten (Lichtimpulsen) abgeglichen, um Fehler der Kamera (z. B. Blendung durch Sonne) auszugleichen.

5. Die Logikschicht (Pfadplanung)

Am Ende steht die Entscheidung. Die interpretierten Daten fließen in ein Modell, das Wahrscheinlichkeiten berechnet:

„Das Objekt ist ein Kind am Straßenrand. Die Bewegungsvektoren zeigen Richtung Fahrbahn. Wahrscheinlichkeit für Betreten der Fahrbahn: 40 %. Aktion: Geschwindigkeit reduzieren.“

Fontanefans Schnipsel

Seiten