PKRN, Kategorien-Garben und LLM-Repraesentationen

Diese Seite erläutert die theoretischen Konzepte hinter Kolimiten und Garben im PKRN-Modell und vermittelt ein fundiertes Verständnis der zugrundeliegenden Strukturen.

Zurück zum PKRN Projekt

Zurück zu den KI-Verbindungen

id: 202605311800 title: „Memo: PKRN, Kategorien-/Garbentheorie und die Repräsentation von Wissen in Large Language Models“ type: memo tags: [PKRN, Kategorientheorie, Garbentheorie, LLM, Interpretability, Forschungsauftrag] related: – „[[Komplexitätsreduktion in Neztwerken 03]]“ – „[[Theoriearbeit – PKRN-Kolimiten und Garbentheorie]]“ – „[[Chatprotokoll – PKRN Kolimiten Garben 2026-05-26]]“ – „[[Mathematical Philosophy of Explanation, AISI]]“ – „[[Evaluating Explanation, AISI]]“ author: Frank Pieper (mit assistierender Synthese) created: 2026-05-31 status: working draft audience: Mathematik, Soziologie, Philosophie

Memo: PKRN, Kategorien-/Garbentheorie und die Repräsentation von Wissen in Large Language Models

Zusammenfassung

Das vorliegende Memo dokumentiert zwei aufeinander bezogene Stränge. Erstens den Stand einer Theoriearbeit, die das Prinzip der Komplexitätsreduktion in Netzwerken (PKRN) kategorientheoretisch reformuliert — Cluster/Chunks als Kolimiten in einer geeignet gewählten Trägerkategorie, kontextabhängige Bedeutungen als Garben über einem Situs, Stabilität als Garbenbedingung relativ zu einer gewählten Beobachtungsauflösung. Zweitens den Befund, dass derselbe Strukturtyp — ohne dort kategoriell formuliert zu sein — in zwei programmatischen Arbeiten des UK AI Security Institute zur mathematischen Philosophie der mechanistischen Interpretierbarkeit von Large Language Models (LLMs) als gesuchte, aber noch unausgearbeitete Form auftaucht. Daraus ergibt sich die Hypothese, dass die in der PKRN gefundene Konstruktion eine strukturelle Universalie trifft: dasselbe formale Bild beschreibt die Stabilisierung von Bedeutung in sozialen Kommunikationsnetzen und die Stabilisierung gelernter Repräsentationen in optimierten neuronalen Netzen. Das Memo legt die Argumente offen, markiert die offenen Fragen und formuliert Anschlüsse für drei Disziplinen.

1. Anlass und Fragestellung

Die PKRN beschreibt seit längerem, wie wirtschaftliche, soziale und kognitive Systeme mit einem Überschuss an Signalen umgehen: Akteure unterstellen Sinn, wählen aus, und durch wiederholten erfolgreichen Gebrauch stabilisieren sich Muster zu behandelbaren Einheiten — Chunks, Black Boxes, Solitonen. Diese Stabilisierung senkt Transaktions- und Übersetzungskosten und ermöglicht Anschlusskommunikation. Die PKRN benennt diese Einheiten bereits in kategorientheoretischer Sprache als Kolimiten, ohne diese Benennung mathematisch auszubuchstabieren.

Eine seither laufende Theoriearbeit hat die Aufgabe übernommen, diese Andeutung zu präzisieren. Sie ist über vier Schritte hinweg an den Punkt gelangt, an dem (i) eine konkrete Trägerkategorie fixiert ist, in der die behaupteten Kolimiten als Theorem existieren, (ii) die kontextabhängige Lesbarkeit eines Chunks als Garbe über einem Situs eingeführt ist, (iii) Stabilität als Garbenbedingung relativ zu einer gewählten Beobachtungsauflösung definiert ist und (iv) ein stabiler Kalibrierungsfall (der Begriff »Tisch«) das erwartete Verdikt liefert.

Zugleich beobachten Interpretierbarkeitsforscher in LLMs Phänomene, die strukturell stark an die in der PKRN beschriebenen erinnern: stabile interne Repräsentationen, die sich während des Trainings ausbilden, kontextabhängig aufgerufen werden und gelegentlich in inkonsistente lokale Lesarten zerfallen. Die Frage des Memos lautet: Tragen Kolimiten und Garben auch als Beschreibungsstruktur für die in LLMs entstehenden Repräsentationen? Anders gesagt: Beschreibt die in der PKRN gefundene Form etwas, das über soziale Netzwerke hinausgeht — eine strukturelle Universalie der emergenten Wissensstabilisierung in informationsverarbeitenden Netzen?

2. Die PKRN in Kurzform

Die PKRN versteht Wissen und Bedeutung als Effekt eines fortlaufenden Auswahlprozesses in einem Netzwerk kommunizierender Akteure. Zwei verschränkte Schritte tragen den Prozess: Sinnunterstellung — die Hypothese, dass eine bestimmte Untermenge der Signale relevant ist — und Stabilisierung — die Festigung wiederholt erfolgreicher Auswahlen zu konventionalisierten Mustern. Diese Muster wirken nach außen wie Black Boxes: sie verschließen ihre interne Komplexität, ermöglichen schnellen Anschluss und reduzieren die Kosten der Verständigung.

Die PKRN ordnet diese Muster in eine dreigliedrige Struktur (sozial / semantisch / semiotisch, im Anschluss an Renn et al.) und ergänzt eine zeitliche Dimension (autopoietische Reproduktion mit asynchroner Faltung der Zeit nach Latour, Kuhn und einer Viskositäts-Analogie). Sie verbindet sich konzeptuell mit der Small-World-Theorie (lokale Cluster, schwache Brückenverbindungen), der Neuen Institutionenökonomie (Stabilisierung lohnt sich, wo der Nutzen den Aufwand dauerhaft übertrifft) und Lotmans Semiosphäre (Bedeutung hängt vom Zeichensystem und vom Kontext ab).

Tragend für das Memo ist die These der PKRN, dass Cluster, Chunks, Solitonen und Kolimiten dieselbe Struktur unter unterschiedlichen Beleuchtungen sind — die Bindung lokaler Kommunikationen zu einer behandelbaren Einheit. Diese These verlangt nach einer mathematischen Präzisierung, um prüfbar zu werden.

3. Die kategorientheoretische Reformulierung der PKRN

Die Theoriearbeit gliedert sich in vier Schritte. Sie geht bewusst langsam vor, weil jede technische Festlegung — insbesondere die Wahl der Trägerkategorie — die Modellierungsmöglichkeiten verschiebt.

3.1 Was die Kolimiten abbilden

Ein Kolimit ist nie absolut. Es existiert relativ zu einer Kategorie C und einem Diagramm D : J → C, wobei J eine kleine Indexkategorie ist (die „Form“ des Diagramms). Das Kolimit-Objekt K = colim D ist zusammen mit einer Familie von Morphismen ι_j : D(j) → K (dem Kokegel) universell: für jeden anderen Kokegel (X, f_j) gibt es genau einen Morphismus K → X, der alles faktorisiert.

Begrifflich sauber getrennt — und das ist ein Beitrag der Arbeit, nicht eine Übernahme — meint Cluster das Diagramm D selbst (das dichte Teilnetz lokaler Bedeutungen mit seinen internen Morphismen), Chunk das Kolimit-Objekt K (die gebundene Einheit, die Black Box), und Soliton den Chunk unter Dynamik, also ein Kolimit-Objekt, das gegenüber der zeitlichen Entwicklung des Netzes invariant bleibt.

Das Kolimit bildet dabei dreierlei zugleich ab. Erstens die Grenze des Chunks — Zugehörigkeit steckt extensional in den Kokegel-Pfeilen ι_j. Zweitens die emergente Identität: K ist selbst Objekt derselben Kategorie und kann in höhere Diagramme eingehen, woraus die rekursive Hierarchie von Chunks entsteht. Drittens den Stopp: jedes Kolimit ist ein Quotient des Koprodukts (formal ein Koegalisator), also minimal. Es trägt keine willkürliche Zusatzstruktur. Diese Initialität ist die formale Fassung sowohl der Simon’schen Stopp-Regel als auch des Transaktionskostenarguments der PKRN — die billigste stabile Einheit ist diejenige, die nur das tut, was die Diagrammrelationen erzwingen.

Eine wichtige Klärung am Anfang: die in der PKRN unscharf gehaltene Definition „jede Kommunikation, von der mindestens ein Akteur glaubt, dass sie dazugehört“ ist nicht kategoriell (sie ist beobachterrelativ und disjunktiv). Die saubere Auflösung ist der Zwei-Schritt-Prozess der PKRN selbst: Sinnunterstellung wählt das Diagramm D : J → C, Stabilisierung bildet colim D. Instabilität bedeutet dann, dass verschiedene Akteure verschiedene Diagramme wählen; Stabilität, dass die gewählten Diagramme so weit konvergieren, dass ihre Kolimiten kanonisch übereinstimmen.

3.2 Die Trägerkategorie C = Graph/L

Eine Behauptung „Chunks sind Kolimiten“ hat erst Inhalt, wenn die Kategorie steht, in der diese Kolimiten leben sollen. Die Arbeit fixiert C als Slice-Kategorie typisierter Kommunikationsgraphen:

C = Graph/L

Dabei ist Graph die Funktorkategorie über der kleinen Kategorie mit zwei Objekten und zwei parallelen Pfeilen (gerichtete Multigraphen mit Quelle- und Ziel-Abbildungen), und L ist ein fester Typgraph, dessen Knoten Akteur- und Bedeutungssorten und dessen Kanten Kommunikationssorten kodieren. Ein Objekt von C ist also ein Graph G zusammen mit einem Typisierungsmorphismus τ : G → L. Die dreigliedrige Struktur der PKRN (sozial / semantisch / semiotisch) wird in L kodiert; sie verlangt keine neue Konstruktion, sondern nur einen hinreichend reichen Typgraphen.

Mit dieser Festlegung verfügt die Arbeit über drei strukturelle Eigenschaften, die ihren Wert erst im Zusammenspiel zeigen:

Erstens — Graph ist eine Prägarben-Kategorie, also ein Grothendieck-Topos. Slices von Topoi sind wieder Topoi. Daraus folgt, dass C vollständig und kovollständig ist. Jedes kleine Diagramm in C hat ein Kolimit. Cluster der PKRN sind endliche oder höchstens abzählbare Teilnetze, also kleine Diagramme. Damit gilt als Theorem: für jeden Cluster existiert der zugehörige Chunk colim D in C.

Zweitens — jeder Topos ist adhäsiv (Lack/Sobociński). Adhäsivität sorgt dafür, dass Pushouts entlang von Monomorphismen sich gut verhalten: das Verkleben überlappender Nachbarschaften ist assoziativ und stabil. PKRN’s Pushout-basierte Selbstorganisation ist damit ein Spezialfall des in der Informatik ausgearbeiteten Double-Pushout-Graphumschreibens.

Drittens — in einem Topos sind Kolimiten universell, also stabil unter Pullback. Diese Stabilität wird in Schritt 3 wichtig, weil sie die Chunk-Bildung mit der Restriktions-Richtung verträglich macht.

Es ist wichtig zu betonen, was hier bewusst noch nicht hineingenommen ist: Bindungsstärke (stark/schwach) — das nackte Kolimit ignoriert Gewichte; und die Variation der Sinnunterstellung über Akteure — sie ist die zweite Bewegung, die in Schritt 3 ihr eigenes formales Zuhause findet. In C steckt nur die konstitutive Sinnunterstellung als Typisierung τ : G → L.

3.3 Die Garbe als Bedeutungsseite

Die PKRN enthält eine zweite Bewegung, die bisher nicht formalisiert war: Akteure tragen divergierende lokale Lesarten desselben Chunks. Diese Bewegung läuft strukturell umgekehrt zur Verklebung — sie ist Restriktion, kein Kolimit.

Eine Prägarbe F ordnet jedem Gebiet U eine Menge F(U) von Schnitten zu und jeder Inklusion V ⊆ U eine Restriktionsabbildung F(U) → F(V). Sie ist ein kontravarianter Funktor von der Gebietsordnung nach Set. Eine Prägarbe ist eine Garbe, wenn für jede Überdeckung {U_i} von U zwei Bedingungen gelten: Trennung (lokale Übereinstimmung impliziert globale Übereinstimmung) und Verklebung (lokal verträgliche Familien kommen von einem eindeutigen globalen Schnitt).

Für die PKRN ergibt sich daraus folgende Konstruktion. Ein Kontext U ist eine Region des Netzes, von der aus der Chunk K benutzt wird (ein Teilnetz); der feinste Kontext ist ein einzelner Akteur. Wir setzen

F(U) = Menge der zulässigen Lesarten von K, die die Region U trägt

und definieren die Restriktion F(U) → F(V) als „dieselbe Lesart, nur über die kleinere Region befragt“. Das ist eine Prägarbe. Die zweite Bewegung der PKRN — „K → K_a“ — ist genau dieses System von Restriktionsabbildungen. Wenn ein Sprecher und ein Hörer denselben Begriff verschieden lesen, ist F(U_S) eine andere Menge als F(U_A), und auf der Überlappung können die Werte auseinanderfallen.

Daraus entsteht der eigentliche Definitionsvorschlag der Arbeit:

Ein Chunk K ist eine stabile Bedeutungsstruktur genau dann, wenn die Prägarbe F seiner Lesarten eine Garbe ist.

Diese Definition ist begründet, weil die zwei Versagensarten der Garbenbedingung präzise zwei PKRN-Pathologien treffen. Verklebung versagt: lokal verträgliche Lesarten ohne globale Synthese — der Chunk wirkt als Einheit, ist aber keine (Scheinbindung). Trennung versagt: zwei lokal ununterscheidbare globale Lesarten — der Chunk ist unterbestimmt (verhärtete Mehrdeutigkeit).

Strukturell bemerkenswert ist die Dualität: Schritt 2 bildet den Chunk als Koegalisator von Koprodukten (Ziel-Konstruktion), Schritt 3 erfasst den globalen Schnitt als Egalisator von Produkten (Quelle-Konstruktion). Träger und Bedeutung leben über demselben Situs S; der Träger ist eine Kogarbe (kovariant, „Netz über U“), die Bedeutung eine Garbe (kontravariant, „Lesarten über U“). Ein stabiler Chunk ist das kohärente Zusammenfallen beider.

3.4 Beobachtungsauflösung als Stellschraube

Die mathematisch wichtigste Schärfung kam in einer dialogischen Vertiefung (siehe Chatprotokoll vom 26.05.2026): die Garbenbedingung ist nicht absolut. Sie ist relativ zur Überdeckung. Bei grober Überdeckung kann F garbenartig erscheinen; bei feinerer Überdeckung kann das Scheitern sichtbar werden.

Daraus folgt für die PKRN-Anwendung: Stabilität ist relativ zur Beobachtungsauflösung. Ein Chunk ist nicht „vollständige Aufbewahrung aller Details“, sondern „stabile Ausblendung irrelevanter Differenzen“. Das ist nicht ein Mangel des Modells, sondern die Funktion des Chunks. Diese Relativität macht zwei empirisch wichtige Klassen modellierbar:

Latente Missverständnisse: Zwei Gesprächspartner verwenden denselben Begriff in der Annahme identischen Verständnisses, ohne dass die Differenz aktiviert wird. Bei grober Überdeckung trägt die Verklebung; bei feinerer wäre sichtbar, dass die Lesarten auf der Überlappung nicht zusammenpassen. Die Verständigung kann latent inkonsistent sein und trotzdem funktional anschlussfähig bleiben — bis eine Anschlusskommunikation die relevante Differenz aktiviert.

Ordnungen im Sinne von Waldenfels („Ordnung im Zwielicht“): Eine Garbe ist nicht die Beweisform einer endgültigen Ontologie, sondern die mathematische Form einer Ordnung solange sie trägt. Ihr Versagen markiert den Punkt, an dem Anschlussfähigkeit in Ordnungsumbau umschlägt. Das verschiebt die Lesart der Definition: nicht „absolute Bedeutungsidentität“, sondern „lokale Rekonstruierbarkeit unter einer gewählten Beobachtungsauflösung“.

3.5 Stand: ein bestandener Kalibrierungsfall, drei offene Fragen

Der erste Kalibrierungsfall — der stabile Begriff »Tisch« in der minimalen Szene „Leg den Brief auf den Tisch“ — wurde durchgerechnet. Mit der minimalen Überdeckung U = U_S ∪ U_A, Überlapp {m}, und kompetenten Sprechern, die dieselbe Grenze ziehen, ist F(U) einelementig, und die Garbenbedingung ist erfüllt. Wichtig: der Test ist nicht tautologisch. Die Gegenprobe — Sprecher mit verschiedenen Grenzen — würde die Trennung verletzen. Die Definition unterscheidet also wirklich.

Drei substantielle Fragen bleiben offen. Erstens die Verträglichkeit von Träger und Bedeutung: kommutiert das Pushout-Verkleben mit den Restriktionen? Universalität der Kolimiten im Topos sollte helfen, der Beweis steht aus. Zweitens der Wertebereich von F: bisher Set-wertig; eine C-wertige Variante mit „Garbe über der Träger-Kogarbe“ wäre die saubere Form. Drittens Bindungsstärke und Akteur-Variation — bewusst aus C herausgehalten, vermutlich nur in einer angereicherten/gewichteten Variante einfangbar.

4. Die Strukturparallele zu LLM-Repräsentationen

Die zweite Beobachtung des Memos: dieselbe Strukturklasse — emergent gebildete, stabile, kontextabhängig gelesene Einheiten — erscheint in zwei programmatischen Arbeiten des UK AI Security Institute zur mechanistischen Interpretierbarkeit (Ayonrinde & Jaburi 2025, „A Mathematical Philosophy of Explanations in Mechanistic Interpretability“; sowie „Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability“). Sie nennen es dort nicht so, aber sie suchen explizit nach dem, was die kategorientheoretische Reformulierung der PKRN konstruiert.

4.1 Was die AISI-Papiere behaupten

Die Autoren argumentieren für einen „Explanatory View“ neuronaler Netze. Ihr Kern: ein LLM ist nicht eine Black-Box-Orakel, das einfach gut vorhersagt, sondern enthält implizite Erklärungen seines Verhaltens — gespeichert in den während des Trainings entstehenden internen Repräsentationen und Berechnungen. Sie nennen die idealisierte Form dieser internen Erklärung ur-explanation: die Erklärung des Modellverhaltens in den vom Modell gelernten Strukturen, ausgedrückt als interne Berechnungen über gelernte Repräsentationen.

Sie übernehmen Hardings (2023) drei Kriterien für eine Repräsentation: Information (Aktivierungen korrelieren mit der Eigenschaft), Use (das Modell nutzt diese Information für sein Verhalten), Misrepresentation (kausale Intervention ist möglich). Sie übernehmen Marrs drei Analyse-Ebenen (Computational / Algorithmic / Implementation) und situieren die mechanistische Interpretierbarkeit auf der algorithmischen Ebene.

Sie argumentieren — über ein No-Miracles-Argument — dafür, die in LLMs entstehenden Repräsentationen ontisch realistisch zu nehmen. Der außerordentliche Erfolg generalisierender Modelle wäre wundersam, wenn die internen Repräsentationen nicht tatsächlich auf reale Strukturen der Trainingsverteilung verwiesen. Daraus folgt für sie die Hauptaufgabe der Disziplin: nicht Erklärungen zu konfabulieren, die mit dem Verhalten korrelieren, sondern die immer-schon im trainierten Netz vorhandenen Ur-Erklärungen aufzudecken.

Im zweiten Papier wird daraus ein Bewertungsrahmen — die Explanatory Virtues (Bayesianisch, Kuhnsch, Deutschsch, nomologisch) — und eine Diagnose: die Disziplin braucht (1) bessere Konzepte von Einfachheit und Kompression, (2) bessere Konzepte von Vereinheitlichung und Mit-Erklärung, (3) nomologische Prinzipien. Das sind die drei „Frontiers“, die die Autoren für die kommende Periode markieren.

4.2 Sechs strukturelle Korrespondenzen

Die folgenden Korrespondenzen sind nicht Analogien aus der Ferne; sie liegen so nah an den Begriffen der PKRN-Theoriearbeit, dass die Übersetzung weniger eine Übertragung als ein Identitätsbefund ist.

Erste Korrespondenz — Beobachtungsauflösung und Dmitry’s Koan++. Die AISI-Autoren zitieren Vaintrob (2025): „There is no such thing as interpreting a neural network. There is only interpreting a neural network at a given scale of precision and a given metric for defining what precision means.“ Das ist die in 3.4 entwickelte Beobachtungsauflösung, wörtlich. Bei AISI erscheint sie als Konsequenz der Value-Ladenness von Erklärungen; in der PKRN-Theoriearbeit als formale Schraube der Garbenbedingung. Die Aussage ist identisch: was als stabile Einheit gilt, ist relativ zur gewählten Auflösung.

Zweite Korrespondenz — Stabilisierung durch Gebrauch und Conceptual Engineering durch das Netz. Die PKRN-These „Bedeutungen werden durch wiederholten erfolgreichen Gebrauch stabilisiert“ findet bei AISI ihre direkte Entsprechung: „generalising neural networks engage in conceptual engineering throughout training: they learn representations which more closely represent the useful concepts required for their environment and/or task.“ Die Mechanismen unterscheiden sich (autopoietische Kommunikation versus Gradient Descent), aber beide sind Selektionsmechanismen, die Muster behalten, deren Verwendung sich auszahlt — bei der PKRN durch reduzierte Transaktionskosten, bei LLMs durch reduzierten Loss. Die strukturelle Klasse des Ergebnisses ist dieselbe.

Dritte Korrespondenz — Kolimit als Quotient und Verstehen als Kompression. AISI lehnt sich an Wilkenfeld (2019) an: „good explanations are compressions that facilitate the understanding of phenomena“. Sie beschreiben das Clustering explizit als „quotienting operation of the input space by the equivalence relation of being in the same cluster“ (Paper 2, Fußnote 13). Die Compact Proofs-Methodologie operationalisiert dasselbe: ein expliziter Pareto-Tradeoff zwischen tightness (Genauigkeit) und compactness (Einfachheit) der Erklärung. In der PKRN-Reformulierung ist genau das die Initialität/Minimalität des Kolimits: das minimale Objekt, das die Relationen respektiert, ohne willkürliche Zusatzstruktur.

Vierte Korrespondenz — Universality of Learned Concepts und Konvergenz der Sinnunterstellungen. AISI listet eine Reihe konvergierender Theorien: Platonic Representation Hypothesis (Huh et al.), Causal World Model Theorem (Richens & Everitt), Natural Abstractions Hypothesis (Wentworth), Natural Latents Theory, Natural Kinds (Khalidi). Sie alle argumentieren — empirisch und theoretisch —, dass unterschiedlich trainierte Netze bei hinreichender Skala auf ähnliche interne Repräsentationen konvergieren. Das ist die These der PKRN auf höherer Ebene: wenn die Welt strukturiert ist und ein System hinreichend lange dieser Struktur exponiert wird, stabilisieren sich kanonische Chunks. Dieselbe Aussage in zwei Vokabularen.

Fünfte Korrespondenz — Theory-Ladenness und Sinnunterstellung. AISI: „unsupervised disentanglement learning in the general case is not possible; we must first hold some theoretical commitment to the structure of the data.“ (Verweis auf Locatello et al. 2019.) Bei der PKRN: ohne Sinnunterstellung gibt es kein Diagramm D : J → C. Die Wahl der Repräsentationsarchitektur in der ML-Praxis (Sparse Autoencoder mit linearer Featurehypothese, TopK, Jump-ReLU) ist eine Sinnunterstellung über die Struktur der Daten. Beide Disziplinen sehen, dass jede Strukturentdeckung einen Theorieprior verlangt.

Sechste Korrespondenz — Co-Explanation, Unification, Local Decodability als gesuchte Tugenden. Die AISI-Autoren markieren drei Frontier-Richtungen für die mechanistische Interpretierbarkeit. Simplicity/Compression (Korrespondenz 3), Unification/Co-Explanation (eine Erklärung, die mehrere Phänomene mit denselben Bausteinen erfasst — strukturell die Stabilität eines Chunks über mehrere Kontexte hinweg, also der Kern der Garbe), und Nomological Principles (allgemeine Gesetze über Netze, statt eine endlose Katalogisierung einzelner Features). Im Anhang F von Paper 2 wird zusätzlich Local Decodability als mögliche Tugend eingeführt — die Möglichkeit, ein kleines Segment einer Erklärung abzurufen, ohne die ganze Erklärung zu konsultieren. Das ist exakt die Halm-Konstruktion einer Garbe: F_x = colim_{U ∋ x} F(U), lokale Information eines globalen Objekts ohne Abfrage des ganzen Objekts.

Diese sechs Korrespondenzen treffen nicht periphere Aspekte beider Theorien, sondern ihre Zentren. Die AISI-Autoren denken nicht in Kategorien und Garben, aber sie suchen, mit anderem Vokabular, präzise diejenige Struktur, die die PKRN-Theoriearbeit anbietet.

4.3 Was die Parallele empirisch zu prüfen verlangt

Eine strukturelle Korrespondenz auf Begriffsebene ist nicht hinreichend. Drei Punkte verlangen empirische und theoretische Arbeit.

Wer ist der Beobachter im LLM? In der PKRN sind es die Akteure, die einen Chunk verschieden lesen. Im LLM scheint zunächst keiner zu existieren. Tatsächlich aber: jeder Eingabe-Prompt ist ein Kontext, der eine bestimmte Aktivierungskonfiguration auslöst. Dieselbe gespeicherte Repräsentation wird in verschiedenen Eingabe-Kontexten unterschiedlich aufgerufen. Das hat strukturell die Form einer Prägarbe: Kontext → Lesart der internen Repräsentation. Interpretierbarkeitsforscher sind die zweiten Beobachter, von außen. Diese doppelte Beobachterstruktur ist zu präzisieren.

Wo wäre die Garbenbedingung empirisch zu prüfen? Die Disziplin diskutiert bereits eine Reihe von Phänomenen, die strukturell wie Garbenversagen aussehen. Der von Wu et al. (2024) und der von Ayonrinde & Jaburi (2025) zur Motivation genutzte Konflikt zwischen Chughtai et al. und Stander et al. — zwei einander widersprechende mechanistische Erklärungen derselben Modellfunktion — sieht nach Trennungsversagen aus: zwei lokal konsistente Lesarten, die global nicht eindeutig zusammenfassbar sind. Die Interpretability Illusions von Bolukbasi et al. (2021), Friedman et al. (2024) und Makelov et al. (2024) sind Fälle, in denen lokal plausible Erklärungen sich als nicht-faithful erweisen — strukturell Verklebungsversagen. Wenn die in Schritt 3.3 vorgeschlagene Definition korrekt ist, müsste sie genau diese Fälle als „keine Garbe“ diagnostizieren — und unterscheiden, welche Bedingung (Trennung oder Verklebung) wo verletzt ist.

Ist die Korrespondenz mehr als Analogie? Die These des Memos ist, dass Optimierung und autopoietische Stabilisierung verschiedene Wege zu derselben strukturellen Klasse sind. Das ist genau die Vorhersage der von AISI formulierten „Universality of Learned Concepts“: Systeme mit unterschiedlichen Lernmechanismen, aber gleicher Trainingsverteilung, konvergieren auf strukturell vergleichbare Repräsentationen. Wenn das stimmt, müssten beide Klassen — soziale Stabilisierung und neuronale Optimierung — in einer gemeinsamen kategoriellen Beschreibung erfassbar sein. Das wäre der eigentliche mathematische Forschungsauftrag.

5. Forschungsauftrag

Aus dem Stand der Theoriearbeit und dem Befund der Strukturparallele ergeben sich drei Anschlüsse, die unterschiedliche Disziplinen ansprechen, aber miteinander verbunden bleiben sollten.

5.1 Für die Mathematik

Der mathematische Kern ist die Frage, ob die in der PKRN-Theoriearbeit eingeführte Konstruktion — Trägerkogarbe als Pushout-Verkleben in einem adhäsiven Topos, Bedeutungs-Garbe als Egalisator über demselben Situs — eine adäquate Beschreibung dessen ist, was in neuronalen Netzen während des Trainings entsteht und beim Inferieren aufgerufen wird. Drei konkrete Teilaufgaben:

Erstens — die Verträglichkeit von Träger und Bedeutung: kommutiert das Pushout-Verkleben mit der Restriktion? Die Universalität der Kolimiten im Topos sollte die Verträglichkeit liefern, der explizite Nachweis steht aus. Sobald er steht, hat man eine kohärente (Ko-)Garbe und nicht nur zwei lose nebeneinander gestellte Funktoren.

Zweitens — die Übertragung der Konstruktion auf eine LLM-geeignete Trägerkategorie. Graph/L ist gut für soziale Kommunikationsnetze. Für LLM-Repräsentationen wären Kandidaten: angereicherte (gewichtete) Varianten; Trägerkategorien, deren Objekte Aktivierungs-Subraum-Anteile sind; Verbindungen zur Computational-Mechanics-Beschreibung von Shai et al. (2024), die „belief state geometry“ in Transformern findet. Hier ist die Wahl der Basis offen und verlangt eigene Begründungsarbeit.

Drittens — die Beziehung zu Causal Abstractions (Geiger et al.). Die dortige constructive abstraction zwischen einem hochstufigen verstehbaren Modell und einem niederstufigen neuronalen Modell ist strukturell ein Quotient mit Verträglichkeitsbedingung. Es ist zu vermuten — aber zu zeigen —, dass eine konstruktive Abstraktion im Sinne Geigers genau dann eine faithful Erklärung liefert, wenn die Restriktions-Prägarbe der Lesarten eine Garbe ist.

5.2 Für die empirische ML-Interpretierbarkeit

Der empirische Auftrag ist: Klassifiziere bekannte Phänomene mechanistischer Interpretierbarkeit unter dem Schema Garbenstruktur / Trennungsversagen / Verklebungsversagen / Auflösungsabhängigkeit. Die hierfür geeigneten Testfälle existieren bereits in der Literatur — Chughtai vs. Stander, Bolukbasi 2021, Friedman 2024, Makelov 2024. Die Hypothese ist, dass eine sorgfältige Re-Analyse dieser Fälle in der Sprache der vorgeschlagenen Garbenbedingung erstens die jeweilige Versagensart präzise benennt und zweitens vorhersagt, wo eine feinere Überdeckung das Problem entweder auflöst oder die Inkonsistenz vergrößert. Wenn beide Vorhersagen empirisch greifen, ist das ein starkes Indiz dafür, dass die Konstruktion ML-anschlussfähig ist.

Zugleich verbindet sich der Auftrag mit der von AISI markierten Forderung nach „Unification“: eine vereinheitlichende Beschreibung der bisher disparaten Befunde aus Sparse-Autoencoder-, Circuit- und Compact-Proof-Forschungen, in der die jeweiligen Methoden als verschiedene Approximationen derselben darunterliegenden (Ko-)Garbenstruktur erscheinen.

5.3 Für Soziologie und Philosophie

Der soziologische Anschluss liegt in der empirischen Erforschung latenter Missverständnisse. Die vorgeschlagene Definition gibt diesen Missverständnissen einen formalen Ort: als auflösungsabhängiges Garbenversagen, das bei grober Beobachtung unsichtbar bleibt und bei feinerer sichtbar wird. Methodisch verlangt das nach Fallstudien, in denen scheinbar stabile Begriffe — der zur Erprobung gewählte Kandidat „Agilität“, oder organisationsinterne Schlüsselbegriffe wie „Deckungsbeitrag“ — durch verschiedene Akteursgruppen unterschiedlich gelesen werden, ohne dass die Differenz im Alltag aktiviert wird. Die Frage ist nicht, ob solche Begriffe stabil sind, sondern unter welcher Beobachtungsauflösung sie tragen.

Der philosophische Anschluss verbindet sich an Waldenfels und Lotman. Die Garbenbedingung lässt sich lesen als mathematische Form einer Ordnung, solange sie trägt. Sie behauptet keine endgültige Bedeutungsidentität, sondern eine vorläufig gelungene lokale Rekonstruierbarkeit. Ihr Versagen ist nicht Fehler, sondern Markierung des Punkts, an dem Anschlussfähigkeit in Ordnungsumbau umschlägt. Diese Lesart erlaubt eine Brücke zu Lotmans Idee des „produktiven Residuums“ — des nicht-übersetzbaren Rests, der jede Ordnung umrahmt und in dem sich der Übergang zu einer neuen Ordnung vorbereitet.

Eine gemeinsame Frage, die alle drei Disziplinen verbindet: Was ist der ontologische Status einer stabilisierten Bedeutungsstruktur, wenn ihre Stabilität relativ zu einer Auflösung gilt? Sie ist nicht bloße Konvention (denn sie greift in das Verhalten von Akteuren und in das Verhalten von Netzen ein), aber sie ist auch nicht beobachterunabhängige Naturtatsache (denn sie hängt von Sinnunterstellung und Auflösung ab). Die Garbe über einem Situs gibt diesem mittleren Status eine Form, die der Diskussion entgegenkommt.

6. Offene Punkte und nächste Schritte

Die unmittelbar nächsten Schritte der laufenden Theoriearbeit sind in der Vorlage festgehalten (Abschnitt 5 von „Theoriearbeit – PKRN-Kolimiten und Garbentheorie“): ein instabiler bzw. Grenzfall (Agilität oder Deckungsbeitrag) zur Gegenprobe der Definition; technische Verträglichkeit von Pushout-Verkleben und Restriktion; C-wertige Variante von F; Bindungsstärke und Akteur-Variation in einer angereicherten Variante.

Hinzu kommen, im Lichte des hier dokumentierten Befundes:

Eine systematische Sichtung der einschlägigen ML-Interpretierbarkeitsfälle (Chughtai/Stander, Bolukbasi, Friedman, Makelov) unter dem Garbenversagen-Schema. Ziel: prüfbare Vorhersagen, welche Versagensart wo auftritt und wie sie sich unter verfeinerter Überdeckung verhält.

Eine Lektüre von Shai et al. (2024) zur „belief state geometry“ in Transformern und ein Vergleich der dortigen computational-mechanics-Beschreibung mit der Trägerkategorie-Konstruktion in 3.2. Falls beide kompatibel sind, ergibt sich eine zweite Anschlussstelle der Theoriearbeit an die empirische ML-Forschung.

Eine Auseinandersetzung mit der „Universality of Learned Concepts“ (insbesondere Wentworths Natural Latents): dort wird mit informationstheoretischen Mitteln argumentiert, dass bestimmte Repräsentationen kanonisch werden müssen. Der Vergleich mit der Initialität (Universalität) des Kolimits ist mathematisch nicht trivial, aber strukturell ergiebig.

Schließlich: die Memo-Form ist hier bewusst gewählt, weil aus der Konstellation ein Forschungsauftrag werden kann, der über die eigene Werkstatt hinausgeht. Sollte sich der oben skizzierte Befund verdichten, lohnt es, die Konstruktion als eigenständiges Programm zu formulieren — interdisziplinär, mit klaren Anschlussstellen in Mathematik, Sozialwissenschaft und Philosophie, und mit einer empirischen Anbindung an die laufende mechanistische Interpretierbarkeit von LLMs.

Quellen

Ayonrinde, K., & Jaburi, L. (2025). A Mathematical Philosophy of Explanations in Mechanistic Interpretability (The Strange Science: Part I.i). UK AI Security Institute.

Ayonrinde, K., & Jaburi, L. (2025). Evaluating Explanations: An Explanatory Virtues Framework for Mechanistic Interpretability (The Strange Science: Part I.ii). UK AI Security Institute.

Pieper, F. Komplexitätsreduktion in Netzwerken: Ein universelles Prinzip (PKRN, Fassung 03).

Pieper, F. Theoriearbeit – PKRN-Kolimiten und Garbentheorie (Stand 2026-05-23).

Pieper, F. Chatprotokoll – PKRN, Kolimiten und Garben (2026-05-26).

Weitere relevante Referenzen, die in den AISI-Papieren genannt werden und für eine Vertiefung naheliegen:

Harding, J. (2023). Operationalising representation in natural language processing. — Definition von Repräsentationen über Information, Use, Misrepresentation.

Huh, M., Cheung, B., Wang, T., & Isola, P. (2024). The Platonic Representation Hypothesis. — Empirische Konvergenz verschieden trainierter Netze.

Shai, A., Riechers, P. M., Teixeira, L., Gietelink Oldenziel, A., & Marzen, S. (2024). Transformers represent belief state geometry in their residual stream. — Computational-Mechanics-Beschreibung interner Repräsentationen.

Wentworth, J., & Lorell, D. (2024). Natural latents: the concepts. — Informationstheoretisches Argument für kanonische Repräsentationen.

Vaintrob, D. (2025). Dmitry’s Koan. — Auflösungsrelativität der Interpretierbarkeit.

Lack, S., & Sobociński, P. Adhesive categories / Toposes are adhesive. — Adhäsivität der Trägerkategorie.

Geiger, A., Potts, C., & Icard, T. (2023). Causal abstraction for faithful model interpretation. — Constructive abstraction als möglicher Verbindungspunkt.

PKRN und LLMs