Zum Inhalt springen
Engineering Kiosk Episode #265 One Billion Row Challenge: Java mit mmap, Unsafe & richtig vielen Bit-Tricks

#265 One Billion Row Challenge: Java mit mmap, Unsafe & richtig vielen Bit-Tricks

Shownotes / Worum geht's?

Java und Performance in einem Satz? Für viele klingt das immer noch wie ein Widerspruch. Dann kommt eine Challenge daher, bei der eine Milliarde Zeilen Wetterdaten verarbeitet werden sollen, und plötzlich wird aus Stammtischwissen ein echter Engineering-Nerdfight. Genau darum geht es in dieser Episode. Wir tauchen tief in die One Billion Row Challenge ein und schauen uns an, wie eine vermeintlich einfache Aufgabe zum internationalen Performance-Contest wurde.

Wir sprechen darüber, warum Gunnar Morling diese Challenge gestartet hat, wie aus einer naiven Lösung mit fast fünf Minuten Laufzeit optimierte Implementierungen mit rund 1,5 Sekunden wurden und welche Rolle dabei Java, GraalVM, Memory Mapping, Unsafe, SIMD, Branchless Coding, Hashmaps, Cache-Lines und Integer-Arithmetik spielen. Außerdem schauen wir auf die Kritik an der Challenge, etwa RAM-Disk, Dataset-Overfitting und CPU-spezifische Optimierungen, und wir werfen einen Blick auf alternative Umsetzungen in C, Go, PHP, SQL, DuckDB, ClickHouse, AWK und sogar auf GPU-Ansätze.

Wenn du Performance-Optimierung nicht nur als Buzzword, sondern als Mischung aus Hardware-Verständnis, Datenstrukturen, Compiler-Wissen und Community-Lernen sehen willst, bist du hier genau richtig. Und ganz nebenbei klären wir auch noch, ob Java wirklich langsam ist oder ob dieser Mythos endlich in Rente darf.

Bonus: AWK schafft es in elf Zeilen. Nicht schnell, aber stilvoll.

Unsere aktuellen Werbepartner findest du auf https://engineeringkiosk.dev/partners

Das schnelle Feedback zur Episode:

👍 (top) 👎 (geht so)

Anregungen, Gedanken, Themen und Wünsche

Dein Feedback zählt! Erreiche uns über einen der folgenden Kanäle …

Unterstütze den Engineering Kiosk

Wenn du uns etwas Gutes tun möchtest … Kaffee schmeckt uns immer 

Sprungmarken

(00:00:00) One Billion Row Challenge und der Java-Performance-Mythos

(00:04:25) Info/Werbung

(00:05:25) One Billion Row Challenge und der Java-Performance-Mythos

(00:07:07) Die Challenge: 1 Milliarde Wetterdaten und ein viraler Benchmark

(00:13:00) Testsetup, Hetzner-Server und erste Laufzeit-Schätzungen

(00:17:05) Von 4 Minuten auf 1,5 Sekunden: Gewinner, GraalVM und Bonuslisten

(00:21:35) Kritik am Benchmark: RAM-Disk, Overfitting und Realitätsbezug

(00:25:03) Erste Optimierungen: Parallelisierung, lokale Hashmaps und Dateisplits

(00:26:59) Memory Mapping, Unsafe und Garbage Collection vermeiden

(00:34:38) Custom Hashmaps, Cache Lines und Integer statt Float

(00:38:30) Temperatur-Parsing auf Bit-Ebene und ALU-Operationen

(00:42:02) SIMD, SWAR und Branchless Coding auf CPU-Ebene

(00:49:53) GraalVM als Performance-Hebel und ein kreativer Prozess-Hack

(00:54:05) Andere Sprachen im Vergleich: C, Go, PHP, AWK und SQL

(00:59:20) Warum die GPU hier nicht automatisch gewinnt

(01:01:44) Was bringt das im Alltag? Kritik, Learnings und Team-Challenges

Hosts

Community

Diskutiere mit uns und vielen anderen Tech-Spezialist⋅innen in unserer Engineering Kiosk Community unter https://engineeringkiosk.dev/join-discord