8.12 Holdout-Mengen, Verblindung, Nullprüfungen und Pipeline-übergreifende Replikation: Wie EFT keine Theorie bleibt, die nur Geschichten erzählt | Energie-Filament-Theorie

I. Kernergebnis dieses Abschnitts

Dieser Abschnitt führt keine neue Entscheidungslinie auf Objektebene ein. Er ergänzt vielmehr eine Reihe kälterer, härterer und auch unbequemerer Prüfregeln. Solange EFT die Rotverschiebungsresiduen, die Schließung auf gemeinsamer Basiskarte, die Strukturschichtung, die Feinstrukturen nahe dem Horizont, die Schwellen von Grenzvorrichtungen und die Quantenleitplanken aus 8.4 bis 8.11 als „Unterstützung“ verbuchen will, muss sie zuerst vier methodische Tore akzeptieren: Holdout-Mengen dürfen keine nachträgliche Rückjustierung der Lesart erlauben, Verblindung darf keinen Blick auf die Antwort zulassen, Nullprüfungen dürfen nicht gemeinsam mit dem Hauptergebnis signifikant werden, und Pipeline-übergreifende Replikation darf die Wahrheit nicht einer einzigen Auswertungsroute überlassen. Ohne diese vier methodischen Tore kann Band 8, so eindrucksvoll er auch wirkt, weiterhin nur eine Erzählung mit hoher Erklärungskraft bleiben. Erst wenn er diese Tore passiert, beginnt er wie eine Kandidatentheorie auszusehen, die bereit ist, sich prüfen zu lassen.

II. Nach der Objektebene braucht es noch ein methodisches Haupttor

Die vorherigen Abschnitte 8.4 bis 8.11 haben die Felder, auf denen EFT am liebsten gewinnen würde und zugleich am leichtesten verletzbar ist, bereits auf den Tisch gelegt: den Sonden-übergreifenden dispersionsfreien gemeinsamen Term, die TPR-Hauptachse und die PER-Residuen, die gemeinsame Basiskarte für Rotation, Linsenwirkung und Verschmelzungen, Strukturgenese, Negativbild und Umwelttomografie, unverwechselbare Signaturen nahe dem Horizont und an der Grenze, Grenzvorrichtungen und Starkfeld-Vakuum sowie Quantenübertragung mit der Nichtkommunikations-Leitplanke. Es reicht jedoch nicht, für all diese Linien nur zu schreiben, was gemessen wird, welches Ergebnis als Unterstützung zählt und welches Ergebnis EFT an die Substanz gehen würde. Gerade weil die Sprache von EFT selbst eine starke Erklärungskraft besitzt, ist die größte Gefahr einer erklärungsstarken Theorie nicht der Mangel an Fällen, sondern dass sie bei zu vielen Fällen im Nachhinein alles passend erzählen kann.

Im bisherigen Text fehlt deshalb noch ein Haupttor: Jedes Ergebnis, das Punkte erhalten soll, muss sich zuerst fragen lassen, ob es unter denselben methodischen Schutzplanken gewonnen wurde. Erst wenn dieses Haupttor klar beschrieben ist, darf die spätere Gesamtbilanz zwischen direkter Unterstützung, Straffung und strukturellem Schaden unterscheiden. Andernfalls rutscht sie leicht in ein Verdienstbuch nachträglich ausgewählter Beispiele ab.

III. Dieser Abschnitt fügt keine neue Experimentfamilie hinzu, sondern nur Prüfdisziplin

Dieser Abschnitt sollte nicht wie ein Statistiklehrbuch geschrieben werden. Das würde Band 8 plötzlich seine Temperatur nehmen und zugleich von dem ablenken, was er wirklich leisten muss. 8.12 erklärt nicht umfassend, was Trainingsmengen, Testmengen, Signifikanz, Bayes-Faktoren oder Modellmittelung sind. Er tut nur etwas Härteres: Er fragt, wie EFT daran gehindert werden kann, sich selbst zu täuschen.

Die vier Regeln in 8.12 sind daher keine isolierten technischen Handgriffe. Sie kreisen um eine gemeinsame Grunddisziplin: Kriterien werden vorab eingefroren; nach dem Ergebnis darf nur noch gebucht, nicht mehr umformuliert werden. Wie die Stichprobe gewählt wird, welche Objekte in die Hauptstichprobe eingehen, welche Frequenzbänder oder Rotverschiebungsschichten nur als Holdout dienen, welche Umweltindikatoren in die Hauptanalyse eingehen, welche Ausschlussregeln gelten und welche Bewertungsregeln einen Treffer zählen, muss vor dem Blick auf das Hauptergebnis feststehen. Ohne diesen Schritt werden Holdout-Mengen heimlich aufgezehrt, Verblindung wird zur Vorführung, Nullprüfungen werden dort gewählt, wo sie am schwächsten sind, und Pipeline-übergreifende Replikation verkommt dazu, dieselbe Voreingenommenheit zweimal laufen zu lassen.

Ebenso wichtig ist die Trennung der Rollen. Viele Experimente und Beobachtungen in Band 8 eignen sich von Natur aus für ein gemeinsames Grundgerüst: Eine Feed-forward-Gruppe veröffentlicht nur auf Basis von Umwelt, Geometrie und bereits eingefrorenen Proxygrößen eine Vorhersagekarte; eine Messgruppe extrahiert die Ablesungen, ohne den Inhalt dieser Karte zu kennen; eine Schiedsgruppe gleicht Vorhersage und Ergebnis erst am Ende anhand einer vorregistrierten Bewertungstabelle ab. Nicht jede Linie muss diese drei Gruppen mechanisch kopieren. Das Gerüst erinnert jedoch an den wichtigsten Punkt dieses Abschnitts: Die Vorhersage muss vor der schönen Abbildung sprechen, und die Regel muss vor der eleganten Geschichte kommen.

IV. Erste Schutzplanke: Holdout-Mengen — keine Rückjustierung der Kriterien durch Ergebnisse

Die Holdout-Menge ist in 8.12 kein sanfter Test der Generalisierbarkeit, sondern ein Messer gegen nachträgliche Rückjustierung. Der naheliegendste Fehler von EFT besteht nicht darin, überhaupt kein Signal zu sehen. Er besteht darin, nach einem ersten Richtungshinweis weiter an Stichprobe, Umweltschichtung, Schwelle, Hintergrundmaßstab und Fit-Familie zu drehen, bis dieser Hinweis zu einer schönen Grafik heranwächst. Genau diese Rückroute soll die Holdout-Menge schließen: Im Trainingsanteil darf der Maßstab bestimmt werden; die zurückgehaltene Menge darf nicht mehr dazu dienen, das bereits Gesagte zu reparieren.

Im kosmologischen Block kann eine Holdout-Menge ein zurückgehaltenes Rotverschiebungsfenster, eine Quellklasse, ein Himmelsfeld, eine Durchmusterungsversion oder sogar eine vollständige unabhängige Distanzkette sein. Im Block der extremen Universen kann sie aus Objekten, Epochen, Ringsektoren, Verschmelzungsclustern oder Umweltstufen bestehen. Im Labor- und Quantenblock kann sie ein Parameterfenster, eine Materialklasse, ein Gerät oder eine Reihe von Scanstufen nahe der Schwelle sein, deren Labels noch nicht offengelegt wurden. Die Form darf wechseln; die Disziplin bleibt dieselbe: Holdout prüft nur, es justiert nicht rückwärts nach.

Ein Holdout-Ergebnis, das EFT wirklich Punkte bringt, ist nicht bloß ein Trend, der im Trainingssatz schon einmal zu sehen war und im Holdout noch „irgendwie ähnlich“ aussieht. Es muss die Richtung halten, die Rangordnung darf nicht zerfallen, und der Maßstab darf nicht geändert werden. Wenn der gemeinsame Term in 8.4 tatsächlich eine dispersionsfreie gemeinsame Basisfarbe ist, muss er auch in zurückgehaltenen Frequenzbändern, Ereignisfenstern oder Stationen mindestens Gleichrichtung und Gleichfenstrigkeit bewahren. Wenn die TPR-Hauptachse in 8.5 wirklich die Basisfarbe trägt, darf ein universelles Alpha beim Wechsel zu zurückgehaltenen Quellklassen oder Himmelsfeldern nicht sofort umgeschrieben werden. Wenn die gemeinsame Basiskarte in 8.6 tatsächlich keine Einzelfall-Collage ist, darf eine eingefrorene Karte bei Holdout-Objekten nicht sofort nach neuen Zusatzflicken verlangen. Sobald ein Trend jedoch im Holdout die Richtung kippt, seine Ordnung verliert oder eine neue Stichprobenauswahl braucht, ist er keine Hauptschlussfolgerung mehr, sondern fällt auf den Rang eines Hinweises zurück.

Ein weiterer Satz muss hart formuliert werden: Holdout darf nicht nur aus dem Teil bestehen, der am leichtesten zu bestehen ist. Wenn eine Theorie die saubersten, vertrautesten und gefälligsten Proben bis zuletzt zurückhält, während risikoreiche Himmelsfelder, schwer kalibrierbare Frequenzbänder, komplexe Objekte und Parameterfenster nahe der Schwelle vorher im Training wiederholt ausprobiert werden, ist der Holdout bereits kontaminiert. Ein echter Holdout muss gerade die Einheiten enthalten, die der Theorie am ehesten ins Gesicht schlagen können. Denn das Ziel von Band 8 ist nicht, die Gewinnchance hochzuschreiben, sondern die Bedingungen von Gewinn und Verlust hart zu machen.

V. Zweite Schutzplanke: Verblindung — die Vorhersage spricht vor der schönen Abbildung

Der Wert der Verblindung liegt nicht darin, formal „wissenschaftlicher“ auszusehen. Er liegt darin, eine Theorie zu zwingen, ihren riskanten Teil im Voraus auszusprechen. EFT hat viele Stellen, an denen man nach dem Blick auf die Grafik allzu leicht einen erklärenden Satz nachschieben kann: Ein gemeinsamer Term sieht nach Umweltverstärkung aus, also heißt es, Umweltverstärkung sei ohnehin erwartet worden; eine Verzerrung scheint nur in Knoten-Umgebungen stärker zu sein, also heißt es, das Gerüst müsse genau so wirken; eine Plattform zeigt nach der Schwelle ein Plateau, also heißt es, das passe zu Schwellendiskretion. Wenn solche Sätze nicht vor dem Ergebnis geschrieben wurden, sind sie keine Vorhersagen, sondern rückblickende Rhetorik.

Die in 8.12 geforderte Verblindung ist daher mehr als das Verdecken von Dateinamen oder das Vertauschen von Stichprobenlabels. Für EFT ist eine strukturierte Feed-forward-Messungs-Schiedsarchitektur entscheidender. In der Feed-forward-Phase darf die Theorie nur anhand eingefrorener Umweltindikatoren, geometrischer Informationen, Materialparameter oder historischer Konten eine Vorhersagekarte schreiben: welche Stufe stärker oder schwächer sein sollte, ob Gleichrichtung oder Gegenrichtung erwartet wird, ob Dispersionsfreiheit erhalten bleiben sollte und ob die Manifestation im selben Fenster erscheinen müsste. In der Messphase darf die Gruppe, die das Signal extrahiert, nicht wissen, was auf dieser Karte steht. In der Schiedsphase zählt eine dritte Partei anhand der eingefrorenen Regeln Treffer, Fehlrichtungen und Leerschüsse. Erst dann setzt EFT wirklich den eigenen Hals aufs Spiel.

Verblindung kann in den verschiedenen Blöcken sehr unterschiedlich aussehen. In 8.4 und 8.5 können Umweltstaffelung und Quellklassenlabels verblindet werden. In 8.6 bis 8.9 können Gerüstrichtungsfelder, Verschmelzungsphasen, Kaltfleck-Schichten, Nahhorizont-Orientierungstemplates oder Objektklassen verblindet werden. In 8.10 und 8.11 eignen sich Materialchargen, Schwellenstufen, Antriebsreihenfolgen, Link-Sauberkeitsgrade oder auch die Zugehörigkeit zu einem Holdout-Parameterfenster besser für die Verblindung. Entscheidend ist nicht die einheitliche Form, sondern die einheitliche Disziplin: Erst sagen, was geschehen soll, dann prüfen, ob es geschieht — nicht erst sehen, was geschah, und danach sagen, man habe es schon gewusst.

Verblindung hat noch einen oft unterschätzten Wert: Sie zwingt EFT, zwischen Feed-forward-Vorhersagbarkeit und nachträglicher Erklärbarkeit zu unterscheiden. Auf dem Papier sehen beide wie „getroffen“ aus, doch ihr wissenschaftlicher Rang ist völlig verschieden. Die erste setzt vor dem Ergebnis riskant; die zweite sucht nach dem Ergebnis nach einer Syntax, in der es Platz findet. 8.12 schützt genau die erste Form, denn nur sie kann die Gewinnwahrscheinlichkeit einer Theorie wirklich verändern.

VI. Dritte Schutzplanke: Nullprüfungen — Artefakte nicht mit neuer Physik verwechseln

Viele Entscheidungslinien von EFT suchen Strukturen, die „schwach, aber diszipliniert“ sind: einen dispersionsfreien gemeinsamen Term, Umwelt-Monotonie, gleichortige Skalierung, Nachschwellen-Plattformen, Feed-forward-Treffer und gemeinsame Basiskarten über Sonden hinweg. Gerade weil solche Signale oft keine überwältigenden Gesamtamplituden sind, sondern eher als Ordnung, Vorzeichen, Gleichfenstrigkeit, Residuen und Schichtungen auftreten, lassen sie sich besonders leicht von Systematiken, Auswahlfunktionen, Kalibrationsdrift, Template-Bias und Gewohnheiten der Analyseketten nachbauen. Die Aufgabe der Nullprüfungen ist es, für diese Artefakte ein eigenes Gericht zu errichten.

Harte Nullprüfungen müssen mindestens zwei Klassen enthalten.

Strukturzerstörende Nullprüfungen: Label-Permutation, Zeitumkehr, Frequenzbandtausch, Stationstausch, Himmelsrotation, Randomisierung der Gerüstrichtung, Vertauschung der Objektidentität und Neuordnung der Schwellenreihenfolge. Sie fragen: Wenn die Strukturbeziehungen, auf die EFT angewiesen ist, zerstört werden, fällt das Hauptergebnis dann auf Zufall zurück?
Kontaminationsprüfungen der Verbindungskette: Bandpass-Störung, Zeitmaßstabsverschiebung, Template-Injektion, Zufallsmasken, Schein-Kontrollfenster, Ersatzmaterialien, Pseudoschwellen-Scans, umgekehrte Polarität und Off-Axis-Geometrie. Sie fragen: Gibt es bekannte nichtphysikalische Faktoren, die im Ablauf eine Signifikanz von derselben Ordnung wie das Hauptergebnis erzeugen können?

Nullprüfungen sind kein Nebenteil und sollten nicht nur im Anhang als Pflichtübung auftauchen. Für 8.4 gilt: Wenn Zeitumkehr, Frequenzbandtausch und Dispersionskontrollen ebenfalls einen „Nullverzögerungs-gemeinsamen Term“ liefern, steht das Hauptergebnis nicht. Für 8.6 und 8.7 gilt: Wenn nach zufälliger Rotation des Gerüsts oder nach Störung der Basiskarte Kollinearität und gemeinsame Basiskarte weiter bestehen, sieht das Ergebnis eher nach Algorithmus-Bias aus. Für 8.9 gilt: Wenn Nahhorizont-Feinstrukturen nach Wechsel des Bildgebungsmaßstabs oder der Template-Richtung genauso signifikant bleiben, ernährt sich die unverwechselbare Signatur von der Verarbeitungskette. Für 8.10 und 8.11 gilt: Wenn Ersatzkonfigurationen, Scheinlasten, leere Resonatoren, getrennte klassische Gegenkonten oder Pseudoschwellen-Kontrollen ebenfalls „neue Signale“ erzeugen, kreist die angeblich neue Physik nur im Instrument. Ein Hauptergebnis, das vor Nullprüfungen seine Spezifität nicht bewahrt, hat kein Recht, als Unterstützung aufgewertet zu werden.

Neben Nullprüfungen braucht es außerdem positive Kontrollen. Der Ablauf muss also nicht nur korrekt scheitern, wenn keine EFT-Struktur vorhanden ist; er muss auch korrekt erfolgreich sein, wenn eine bekannte Struktur injiziert wird oder bekannte Physik auftreten sollte. Wenn eine Pipeline weder Artefakte zerstören noch bekannte Signale wiederherstellen kann, hat ihr Hauptergebnis keinerlei Anspruch auf Punkte. Die Nullprüfungen von Band 8 sind daher nicht bloß destruktiv. Sie frieren zugleich die Forderung ein: Erfolg, wenn Erfolg fällig ist; Scheitern, wenn Scheitern fällig ist.

VII. Vierte Schutzplanke: Pipeline-übergreifende Replikation — keine einzelne Route darf die Wahrheit monopolisieren

Die gefährlichste Art von Sieg in Band 8 ist der Sieg, der verschwindet, sobald man die Datenverarbeitungsroute wechselt. Viele Größen, die EFT interessieren, hängen von komplexen Extraktionsketten ab: Wie wird der Hintergrund abgezogen? Wie wird das Gerüst extrahiert? Wie wird die Linsenwirkung invertiert? Wie wird ein Ringbild rekonstruiert? Wie wird eine Schwelle identifiziert? Wie werden Rohströme synchronisiert? Wie werden Rauschen und Postselektion getrennt gebucht? Sobald irgendeiner dieser Schritte stark an die Standardgewohnheiten eines Teams gebunden ist, darf ein schönes Ergebnis in einer einzigen Pipeline niemals automatisch als physikalische Schlussfolgerung gelten.

Pipeline-übergreifende Replikation meint in 8.12 deshalb nicht, dieselbe Codebasis mit einem anderen Zufalls-Seed zweimal laufen zu lassen. Gemeint ist echte Unabhängigkeit: unabhängige Vorverarbeitungsketten, unabhängige Hintergrundmodelle, unabhängige Gerüst- oder Bildrekonstruktionen, unabhängige Fit-Familien, unabhängige Kalibrationswege — im Idealfall zusätzlich unabhängige Teams, Institutionen und Hardwareversionen. Bei astronomischen Daten bedeutet das, dass unterschiedliche Durchmusterungsprodukte, Bildgebungs- oder Inversionspipelines und Makromodellfamilien zu gleichgerichteten Schlüssen kommen müssen. Bei Labordaten heißt es, dass unterschiedliche Geräte, Steuerungssoftware, Datenerfassung und Nachbearbeitung das Ergebnis nicht beliebig kippen dürfen.

EFT braucht hier nicht, dass alle Pipelines numerisch exakt denselben Wert liefern. Was sie wirklich braucht, ist schlichter und schwerer zu fälschen: dass Hauptvorzeichen, Hauptrangfolge und Hauptstruktur übereinstimmen. Wenn ein Signal nur unter einer bestimmten Hintergrundabziehung, einer bestimmten Rekonstruktionsregularisierung, einer bestimmten Template-Basis oder einem bestimmten Postselektionsfenster besteht und bei anderen vertretbaren Pipelines sofort zerfällt, dann sollte Band 8 ehrlich nicht „umstritten, aber vielversprechend“ schreiben, sondern „vorerst ein Verarbeitungsketten-abhängiger Hinweis“.

Am Ende muss Pipeline-übergreifende Replikation auch auf offene Konten und Nachrechenbarkeit hinauslaufen. Nicht jedes Team muss sofort alle Zwischenfiles ohne Einschränkung veröffentlichen. Aber externe Prüfer müssen zumindest die entscheidenden Entscheidungspunkte sehen können: welche Stichproben ausgeschlossen wurden, welche Parameter eingefroren waren, welche Holdout-Einheiten unberührt blieben, welche Nullprüfungen scheiterten und welchen unabhängigen Pipelines das Ergebnis nicht gefiel. Wenn diese Konten allein beim Ursprungsteam bleiben, kann die Außenwelt kaum unterscheiden, ob sie es mit einem komplexen Phänomen oder mit einem komplexen Ablauf zu tun hat.

VIII. Warum die vier Schutzplanken parallel geschaltet werden müssen und nicht einzeln als Ritual genügen

Nur Holdout ohne Verblindung erlaubt es, zuerst den Trend zu sehen und dann sorgfältig einen „vernünftigen“ Holdout zu wählen. Nur Verblindung ohne Nullprüfungen verhindert zwar den Blick auf die Antwort, kann aber Systemartefakte noch immer als Überraschung behandeln. Nur Nullprüfungen ohne Pipeline-übergreifende Replikation erlauben einer Analysekette, Hauptergebnis und Nullprüfungen mit derselben Verzerrung zu tragen. Nur Pipeline-übergreifende Replikation ohne Holdout lässt mehrere Teams gemeinsam eine Trainingsmenge bis zur Orakelhaftigkeit überfitten. Die vier Schutzplanken sind keine vier Dekorationen, sondern eine Kette.

Deshalb muss 8.12 auch eine verbreitete Kompensationslogik ausdrücklich zurückweisen: „Wir hatten zwar keinen Holdout, aber wir haben verblindet; die Nullprüfungen waren zwar mittelmäßig, aber die Pipelines waren recht konsistent; unabhängige Replikation fehlt zwar noch, aber auf dem Trainingssatz sieht es hervorragend aus.“ Solche Bewertungslogik mag in der Werbung funktionieren, im Audit ist sie regelwidrig. Band 8 kämpft nicht um einen Gesamteindruck. Er kämpft darum, ob eine These unter den ungünstigsten Regeln noch steht. Wenn ein zentrales Tor nicht passiert wurde, darf kein schönes Ergebnis an einem anderen Tor das ausgleichen.

IX. Wie diese vier Schutzplanken in 8.4 bis 8.11 hinabreichen

In 8.4 und 8.5 besteht die Kernaufgabe der vier Schutzplanken darin, zu verhindern, dass der „gemeinsame Term“ und die TPR/PER-Kontentrennung nachträglich zusammengenäht werden. Geeignete Holdouts wären Quellklassen, Himmelsfelder, Frequenzbänder und Ereignisfenster. Verblindung verlangt, dass Umwelt-Vorhersagekarten und die Regeln der Hauptgrößen-Residuen-Kontentrennung zuerst eingefroren werden. Nullprüfungen sollten vorrangig Ersatz-Dispersionsgesetze, Zeitumkehr, Label-Permutation und Stationstausch einsetzen. Pipeline-übergreifende Replikation muss mindestens Rotverschiebungsverarbeitung, Zeitverzögerungsverarbeitung, unabhängige Distanzketten und Linsenmodellierung abdecken. Sind diese Schutzplanken nicht vollständig, rutschen 8.4 und 8.5 leicht zurück in „diese Abbildung sieht auch passend aus, jene lässt sich auch erzählen“.

In 8.6 bis 8.9 sollen die vier Schutzplanken verhindern, dass gemeinsame Basiskarte, Gerüstrichtung, Nahhorizont-Feinstruktur und unverwechselbare Grenzsignaturen zu bloßer Bildhermeneutik werden. Holdout-Mengen sollten hier eher Objekte, Epochen, Rotverschiebungsschichten, Verschmelzungsphasen und Sichtlinieneinheiten zurückhalten. Verblindung kann auf Gerüstrichtungsfeldern, Umweltstufen, Orientierungstemplates, Objektklassen und Marken-Vorhersagekarten liegen. Nullprüfungen müssen besonders Template-Rotation, Zufallsgerüste, Zufallsmasken, Off-Axis-Kontrollen, falsche Hotspots und Kaltflecken, Translation und Resampling betonen. Pipeline-übergreifende Replikation verlangt, dass unterschiedliche Gerüstalgorithmen, Massenrekonstruktionen, Bildgebungsverfahren und Zeitverzögerungsextraktionsketten gleichzeitig gleichgerichtete Ergebnisse liefern.

In 8.10 und 8.11 dürfen die vier Schutzplanken noch weniger gelockert werden. Denn der Laborblock ist besonders anfällig für den Scheinsieg: „Das Signal sieht sehr schön aus, gilt aber eigentlich nur in genau diesem Gerät und genau diesem Verarbeitungsskript.“ Holdout kann hier ein vollständiges Parameterfenster, eine Materialklasse, ein ganzes Gerät oder eine Chip-Charge sein. Verblindung kann auf Schwellenstufen, Materiallabels, Antriebsreihenfolge und Link-Sauberkeitsstufen liegen. Nullprüfungen müssen Ersatzkonfigurationen, leere Resonatoren, Scheinlasten, umgekehrte Polarität, getrennte Links, Zeitfehlanpassung sowie Injektion und Wiedergewinnung enthalten. Pipeline-übergreifende Replikation sollte idealerweise institutionenübergreifend, hardwareübergreifend und steuerungssoftwareübergreifend angelegt sein; Rohkonten und Postselektionskonten sollten besonders zweigleisig offengelegt werden. Nur so verhindert Band 8, technische Zufälligkeit als zusätzliche Qualifikation von EFT zu verbuchen.

X. Welche methodischen Ergebnisse EFT wirklich unterstützen würden

Aus Sicht von 8.12 unterstützt EFT nicht schon deshalb, weil ein Objekttyp „mehr nach EFT aussieht“. Wirkliche Unterstützung entsteht erst, wenn EFT die ungünstigsten Regeln akzeptiert und dennoch auf mehreren Entscheidungslinien strukturelle Treffer erzielt. Konkret sollten mindestens mehrere Dinge zugleich auftreten:

Richtung, Rangordnung und Hauptstruktur auf den Holdout-Mengen bleiben gleichgerichtet mit dem Trainingsanteil und müssen nicht durch Rückjustierung der Kriterien am Leben gehalten werden.
Die Trefferquote der verblindeten Vorhersagekarten liegt stabil über Zufall und Permutationskontrollen und sieht nicht erst nach der Entblindung so aus, als sei „genau das ohnehin zu erwarten gewesen“.
Das Hauptergebnis schlägt strukturzerstörende Nullprüfungen und Kontaminationsprüfungen der Verbindungskette deutlich.
Mindestens zwei wirklich unabhängige Pipelines und Teams liefern gleichgerichtete Schlüsse, ohne dafür neue Regeln erfinden zu müssen.

Wenn diese Bedingungen nicht nur auf einer isolierten feinen Linie gelten, sondern über mehrere Familien von 8.4 bis 8.11 hinweg, dann entkommt EFT zum ersten Mal wirklich der gefährlichsten Bewertung: eine Theorie zu sein, die nur gut erzählen kann. Denn dann erklärt sie nicht nur Objekte; sie lässt ihre Erklärungshoheit methodisch zusammendrücken. Und noch wichtiger: Nach diesem Zusammendrücken bleibt etwas übrig.

Ein weiterer Punkt muss hart festgeschrieben werden: Methodische Unterstützung hat selbst Abstufungen. Die schwächste Stufe ist nur, dass ein Ergebnis vor den Schutzplanken nicht gefallen ist. Die stärkere Stufe ist, dass es vor diesen Schutzplanken nicht nur stehen bleibt, sondern aktiv einen Vierfachschluss zeigt: Feed-forward-Treffer, Holdout-Robustheit, Trennbarkeit unter Nullprüfungen und gleichgerichtete Ergebnisse über Teams hinweg. Band 8 braucht nicht die erste, sondern die zweite Stufe. Die erste besagt nur, dass EFT vorerst keinen Prozessfehler nachgewiesen bekommen hat. Die zweite besagt, dass EFT beginnt, prozedurales Vertrauen zu gewinnen.

XI. Welche Ergebnisse nur Straffung bedeuten und nicht sofort zum Ausscheiden führen

Nicht jede methodische Schwierigkeit wirft EFT sofort in die Umbaustufe zurück. Manche Ergebnisse bedeuten Straffung, nicht Entsorgung.

Die erste Form der Straffung liegt vor, wenn Holdout-Mengen nur in bestimmten Fenstern bestehen. Eine These passiert dann die vier Schutzplanken vielleicht in bestimmten Quellklassen, Umgebungen, Plattformen oder Parameterfenstern, wird aber schwächer, sobald sie diese Fenster verlässt. Ein solches Ergebnis bedeutet: EFT hat möglicherweise etwas Reales erfasst, aber ihr Geltungsbereich muss enger geschrieben werden.
Die zweite Straffung liegt vor, wenn verblindete Treffer existieren, aber nur die Richtung und nicht die Amplitude treffen; oder wenn sie nur die Schichtung, aber keinen einheitlichen Maßstab treffen. Dann bewahrt EFT Vorhersagefähigkeit, aber nicht die zu starke universelle Syntax. Die dritte Straffung liegt vor, wenn Nullprüfungen insgesamt bestanden werden, bestimmte Hochrisiko-Teilräume aber empfindlich bleiben: ein bestimmtes Himmelsfeld, ein bestimmter Bandrand, eine bestimmte Bildgebungskonfiguration oder eine bestimmte Materialcharge. Die vierte Straffung liegt vor, wenn Pipeline-übergreifende Replikation gleichgerichtet ist, aber nur mit breiteren systematischen Fehlerbändern konvergiert. All dies darf nicht als vollständige Unterstützung geschönt werden. Es bedeutet aber auch nicht das sofortige Aus. Es zwingt EFT, ihren Anspruch kleiner und ihre Sätze härter zu schreiben.

XII. Welche Ergebnisse EFT unmittelbar an die Substanz gehen würden

Die erste Ergebnisklasse, die das methodische Hauptgerüst von EFT wirklich trifft, ist ein systematisches Kippen im Holdout. Das heißt: Richtung, Rangordnung und Schließung, die im Trainingsanteil stabil aussahen, verschwinden, drehen sich um oder bleiben nur erhalten, wenn die Stichprobe neu gewählt wird. Das ist nicht „etwas schwächere Generalisierung“, sondern ein Hinweis darauf, dass die Hauptschlussfolgerung wahrscheinlich von Rückjustierung abhängt.
Die zweite Klasse ist langfristiges Verfehlen unter Verblindung, während nach der Entblindung immer wieder elegante Erklärungen nachgeliefert werden. Solange Vorhersagekarten unter eingefrorenen Kriterien nur Zufallsnähe erreichen, eine hohe Fehlrichtungsrate haben oder nach dem Blick auf die Abbildung ständig Schwellen, Schichtungen und Proxygrößen umgeschrieben werden müssen, darf EFT diese Erklärungen nicht länger als Vorhersagesyntax schreiben.
Die dritte Klasse ist die gemeinsame Signifikanz von Nullprüfungen und Hauptergebnis. Wenn Label-Permutation, Zeitumkehr, Template-Rotation, Ersatzmaterialien, Schein-Kontrollfenster, Bandpass-Störungen oder Zufallsgerüste „Unterstützungssignale“ ähnlicher Stärke erzeugen, muss Band 8 nicht „die Lage ist komplex“ schreiben, sondern „der Ablauf erzeugt das Signal“.
Die vierte Klasse liegt vor, wenn nur eine einzelne Pipeline oder ein einzelnes Team EFT sehen kann. Sobald ein anderes Hintergrundmodell, eine andere Inversionsmethode, eine andere Bildgebungsroute, eine andere Kalibrationskette oder eine andere Hardwareversion das Hauptergebnis zerstreut; oder sobald institutionenübergreifende Nachrechnung langfristig keine gleichgerichteten Schlüsse liefert, verliert EFT das Recht, von anderen Anerkennung zu verlangen. Die fünfte und schärfste Klasse liegt vor, wenn die vier Schutzplanken gegeneinander arbeiten: Holdout besteht, aber Verblindung trifft nicht; das Hauptergebnis ist signifikant, aber die Nullprüfung ist es auch; ein Einzelteam bleibt stabil, mehrere Teams replizieren nicht. Wenn eine solche Spaltung in mehreren Entscheidungsfamilien dauerhaft auftritt, darf 8.12 nicht länger als methodischer Pluspunkt gelten, sondern muss als harter Schaden für die Glaubwürdigkeit des gesamten Bandes geschrieben werden.

Es gibt noch eine methodische Verletzung, die oft unterschätzt wird: Die Regeln werden immer erst nach dem Ergebnis aufgerüstet. Heute zählt Gleichrichtung, morgen Rangordnung, übermorgen nur noch die starke Umwelt-Teilstichprobe; heute reichen zwei Pipelines, morgen glaubt man wegen Widerspruch nur noch einer davon; heute ist das Holdout-Himmelsfeld entscheidend, morgen wird wegen eines Richtungswechsels das Frequenzband zum Holdout erklärt. Solange dieses Muster, bei dem die Regeln den Ergebnissen hinterherlaufen, dauerhaft besteht, muss 8.12 es als schwere Verletzung werten. Denn dann hat EFT noch nicht gelernt, sich festen Regeln zu unterstellen.

XIII. Wann heute noch nicht entschieden werden kann

Auch dieser Abschnitt behält die Kategorie „vorerst nicht entscheidbar“. Ihre Grenzen müssen jedoch sehr eng bleiben. Die erste berechtigte Nichtentscheidung liegt vor, wenn Rohkonten und Schlüsselmetadaten noch nicht offen genug sind. Wenn Zeitmaßstabskette, Bandpasskette, Kalibrationskette, Definition der Holdout-Einheiten oder Umwelt-Proxies intransparent bleiben, würde ein hartes Urteil die Debatte nur auf ein noch höheres Rauschniveau verschieben.
Die zweite Form entsteht, wenn die Stichprobenabdeckung noch keine echte Holdout-Struktur erlaubt. Bei manchen unverwechselbaren Vorhersagen sind die Objekte derzeit vielleicht so selten, dass schon das Zurückhalten eines einzigen Objekts fast keine Stichprobe übrig ließe. Manche Extremplattformen haben vielleicht noch keine institutionenübergreifenden Bedingungen. In solchen Fällen ist „vorerst nicht entscheiden“ Zurückhaltung.
Die dritte Form entsteht, wenn die vier Schutzplanken noch keinen gemeinsamen Maßstab haben. Wenn Teams noch keinen Grundkonsens darüber besitzen, was eine unabhängige Pipeline, eine wirksame Nullprüfung, ein verblindeter Treffer oder eine Holdout-Einheit überhaupt bedeutet, ist ein schweres Urteil heute womöglich noch nicht angemessen. Doch diese Art Nichtentscheidung darf nicht zu unbegrenzter Lebensverlängerung werden. Sobald Rohkonten offenliegen, Maßstäbe eingefroren sind, Holdouts und Nullprüfungen durchgeführt wurden und unabhängige Pipelines bereitstehen, die Ergebnisse aber dennoch gegenläufig bleiben, gehört das nicht mehr zu „noch nicht entscheidbar“. Dann schwächt es EFT, statt auf eine bessere Entschuldigung zu warten.

Es gibt zudem eine vernünftige, aber gefährliche Form der Nichtentscheidung: Das Objekt ist zu selten, die Plattform zu teuer oder der Replikationszyklus zu lang. Manche Nahhorizont-Feinstrukturen, extremen Verschmelzungen oder kostspieligen Quantenlinks können tatsächlich nicht so schnell über mehrere Institutionen repliziert werden wie Routineexperimente. In solchen Fällen darf 8.12 vorübergehend „Evidenzdichte noch unzureichend“ zulassen. Es darf dies aber niemals in „also vorläufig als Unterstützung verbuchen“ umdeuten. In der Grammatik von Band 8 können Kosten und Seltenheit ein Urteil nur verlangsamen, nicht die Gewinnwahrscheinlichkeit erhöhen.

XIV. „Erklären können“ ist nicht dasselbe wie „Prüfung bestehen“: die wichtigste Wendung dieses Abschnitts

Dieser Abschnitt ergänzt nicht nur ein paar technische Anforderungen. Er verschiebt die Haltung des gesamten Bandes von Erklärungslogik zu Prüfungslogik. Erklärungslogik ist besonders gut darin, zu jedem neuen Objekt einen Satz zu finden, der es unterbringt. Prüfungslogik tut das Gegenteil: Sie bindet sich zuerst selbst und fragt dann, was noch übrig bleibt. Für eine Theorie wie EFT, die versucht, die Basiskarte umzuschreiben, ist diese Wendung besonders wichtig. Je besser sie sprechen kann, desto eher muss sie zuerst stillhalten. Je mehr sie passend erzählen kann, desto eher muss sie die ungünstigsten Regeln akzeptieren.

Genau diese Schicht sollte aus dem Abschnitt im Gedächtnis bleiben: Das wirklich Gefährliche an Falsifikation ist nicht, wie stark die Gegner sind, sondern ob eine Theorie bereit ist, sich selbst nach den ungünstigsten Regeln zu prüfen. Wenn EFT dazu nicht bereit ist, bleibt sie auch dann nur eine Theorie, die Geschichten erzählen kann, wenn niemand sie sofort widerlegt. Umgekehrt wiegt selbst ein Teilsieg in einem engen Fenster schwerer, wenn er unter den ungünstigsten Regeln errungen wurde, als ein ganzer Band schöner Erklärungen ohne Schutzplanken.

XV. Zwischenfazit dieses Abschnitts

Ob Band 8 bestehen kann, hängt nicht nur davon ab, was er sieht. Es hängt auch davon ab, ob EFT bereit ist, sich vor den vier methodischen Toren von Holdout-Mengen, Verblindung, Nullprüfungen und Pipeline-übergreifender Replikation zuerst selbst zu benachteiligen. Erst wenn EFT diese unbequemen Regeln akzeptiert, ist jede spätere Unterstützung mehr als nur ein Echo der eigenen Erzählung.