sleep² im großen Schlaftracker-Vergleich – Genauigkeit auf Augenhöhe mit der Polysomnographie
Kategorie
Wissenschaftliche Validierungsstudie
Umfang
8 Schlaftracker, 5 Nächte
Teilnehmer:innen
18 Personen (Heim-PSG)

Wie genau messen Schlaftracker wirklich?
Schlaftracker und Wearables sind aus Alltag und Forschung kaum noch wegzudenken. Doch wie verlässlich sind die Schlafdaten von Oura, Apple Watch, Fitbit und Co. tatsächlich? Eine aktuelle Studie (Topalidis et al., 2025) ist dieser Frage systematisch nachgegangen und hat acht verbreitete Consumer Sleep Tracker (CST) unter realen Bedingungen gegen die Polysomnographie (PSG) getestet – das EEG-basierte Goldstandard-Verfahren der Schlafmedizin. Für sleep² ist das Ergebnis eindeutig: Kein anderes getestetes Verfahren misst die Schlafstadien so genau.
Das Studiendesign: fünf Nächte, Heim-PSG, gezielte Härtetests
Achtzehn Teilnehmer:innen absolvierten fünf aufeinanderfolgende Nächte (Montag bis Freitag) mit ambulanter Heim-Polysomnographie und trugen dabei gleichzeitig je zwei baugleiche Geräte jedes Trackers. Um die Algorithmen unter erschwerten Bedingungen zu prüfen, enthielt das Protokoll gezielte Schlafmanipulationen, etwa verkürzten und verlängerten Schlaf. Die Auswertung folgte einem standardisierten Framework aus Epoch-by-Epoch-Analyse (30-Sekunden-Abschnitte) und einer Diskrepanzanalyse zentraler Schlafparameter.
Getestet wurden: sleep² (mit Polar Verity Sense und Polar H10), Oura Ring 3, Apple Watch Series 9, Fitbit Charge 6, Garmin Vivoactive 6 und Venu 3, WHOOP 4 sowie Circul+.
Die Ergebnisse im Überblick
Gemessen wurde die Übereinstimmung mit der PSG über alle Schlafstadien hinweg, ausgedrückt als Genauigkeit (Accuracy) und über Cohen's κ, das die zufällige Übereinstimmung herausrechnet.
| Gerät | Genauigkeit | Cohen's κ |
|---|---|---|
| sleep² (Polar H10) | 84,0 % | 0,76 |
| sleep² (Polar Verity Sense) | 83,7 % | 0,76 |
| Oura Ring 3 | 72,5 % | 0,59 |
| Apple Watch Series 9 | 72,3 % | 0,56 |
| Fitbit Charge 6 | 66,2 % | 0,47 |
| WHOOP 4 | 65,2 % | 0,48 |
| Garmin Vivoactive 6 und Venu 3 | 63,4 % | 0,41 |
| Circul+ | 55,6 % | 0,33 |
Epoch-by-Epoch-Genauigkeit und Cohen's κ gegenüber der Polysomnographie. Anmerkung: Die maximal erreichbare Genauigkeit liegt bei ~88% (Interrater-Reliabilität bei PSG). Quelle: Topalidis et al. (2025).
Was die Zahlen bedeuten
Mit einem Cohen's κ von 0,76 erreicht sleep² eine substanzielle Übereinstimmung mit der PSG und liegt als einziges System im Testfeld in diesem Bereich. Die meisten am Handgelenk getragenen Tracker überschätzten dagegen die Gesamtschlafzeit und unterschätzten die Wachphasen nach dem Einschlafen (Wake After Sleep Onset, WASO) massiv. Besonders deutlich wurde dieser Effekt in atypischen Nächten mit fragmentiertem, verkürztem oder verlängertem Schlaf – also genau dann, wenn präzise Daten am wichtigsten sind.
Die kardial basierten sleep²-Messungen über Arm- und Brustband zeigten nur geringe Abweichungen von der PSG und blieben auch in schwierigen Nächten stabil. Die Oura-Geräte und Apple Watch (Series 9) erreichten eine moderat gute Genauigkeit aber teils große Streuungen zwischen den Nächten.
Warum sleep² so genau misst
Der Unterschied liegt in den Sensoren und der Deep-Learning KI Methode. Während viele Wearables ihre Schlafstadien auch von Bewegungsdaten ableiten, nutzt sleep² Messungen in Herznähe und misst den Herzschlag auf Millisekunden genau über Inter-Beat-Intervalle (IBI). Dieses Signal bildet die nächtliche Regulation des autonomen Nervensystems präzise ab und macht die Messung robust – auch dann, wenn der Schlaf unruhig verläuft oder sich der Bettpartner neben einem bewegt.
Empfehlung
- Wer Schlaf verlässlich erfassen möchte, sollte auf validierte, gegen PSG getestete Messverfahren setzen. Die Genauigkeit gegenüber dem Goldstandard ist der entscheidende Maßstab.
- Einzelwerte einzelner Nächte aus Handgelenk-Trackern mit Vorsicht interpretieren, besonders bei unruhigem oder ungewöhnlich kurzem beziehungsweise langem Schlaf.
- Für Forschung und Versorgung empfiehlt sich ein standardisiertes, IBI- basiertes Verfahren mit herznahen Sensoren wie bei sleep².
Quellen:
Topalidis, P., Kogler, L., Mitterer, C., Hinterberger, A., Baron, S., Schabus, M., & ter Horst, R. (2025). Beyond the Hype? A Standardised Real-World Evaluation of Consumer Sleep Trackers (CST) in Extracting Sleep. PsyArXiv. https://doi.org/10.31234/osf.io/27wun_v1
