diff --git a/Exposé/0_Problembeschreibung.md b/Exposé/0_Problembeschreibung.md
index 8202f0e..865056e 100644
--- a/Exposé/0_Problembeschreibung.md
+++ b/Exposé/0_Problembeschreibung.md
@@ -1,12 +1,35 @@
-Als 2022 OpenAI ihr #Chatbot ChatGPT der Öffentlichkeit freistellte wurden neue Automatisierungsprozesse ermöglicht. Redundante Arbeit konnte von nun an durch ein Chat-Bot teilweise durchgeführt werden.
+Mit der ankunft von breit verwendeten LLMs wie ChatGPT, Gemini oder auch Llama bot sich eine neue Form der Arbeit im Bereich der Informatik, spezifisch dem schreiben von Code.
-Diese Chat-bots jedoch können Fehler und Falschaussagen in generierte Texte hinzufügen, die schwerwiegende Probleme für Endnutzer:innen erzeugen können, die wir vorher so nicht gesehen hatten.
+Das sogenannte Vibe-Coding ist ein bereits weit vertretener Begriff für Personen, die zur Erstellung von Code und Code-Architekturen auf KI-Modelle zugreifen um Personal und Arbeit zu reduzieren.
-Bei der Verfassung und Generierung von Lernmaterial ist ein korrektes lernen von Fachvokabular und Kontext von besonderer Wichtigkeit, diese Thesis versucht eine Lösung für dieses Teilproblem zu lösen.
+Problematisch sind jedoch Synthetic Error Injections bei generiertem Code, der zu unerwünschten Problemen führen kann. Beispiele hierfür sind undefinierte Variablen, fehlende Imports, Typenfehler, Off-By-One-Fehler und logic contradicitons.
-Ziel soll es sein eine Applikation zu entwickeln, welche sich zwischen einen Chat-Bot und den Endnutzer:innen schalten kann oder per Copy-Paste einen Text auf folgende Kriterien prüfen soll:
-- Korrektheit von Kontext bei verwendeten Schlüsselwörtern
-- Verwendete Grammatik
-- Kohärenz von Informationen
+Diese Thesis behandelt diese Problematik, indem
-Um dies zu erfüllen soll "natural language processing ( #NLP)" verwendet werden. Eine weitere KI würde nur neue Probleme bzw. bereits existierende Probleme nicht immer erfassen können.
\ No newline at end of file
+```mermaid
+gantt
+
+title Zeitplan (9 Wochen)
+
+dateFormat YYYY-MM-DD
+
+section Pakete
+
+1. Baseline :2026-04-01, 3d
+
+2. Datensatz-Plan :2026-04-04, 7d
+
+3. Datensatz-Erst.:2026-04-11, 14d
+
+4. BERT-Setup :2026-04-25, 4d
+
+5. MCP-Infrastr. :2026-04-29, 7d
+
+6. Frontend :2026-05-6, 3d
+
+7. Fine-Tuning :2026-05-9, 7d
+
+8. Analyse :2026-05-16, 7d
+
+Puffer :crit, 2026-05-023, 14d
+```
diff --git a/Fragen.md b/Fragen.md
index 276f70e..aba1ee0 100644
--- a/Fragen.md
+++ b/Fragen.md
@@ -3,23 +3,7 @@ tags:
- Fragen
---
# Fragen zum Thema und zur Umsetzung
-- [ ] Wie ermittel ich Fachgerecht die:
- - [ ] #Grammatik?
- - [ ] #Rechtschreibung?
- - [ ] dass sich der #ChatBot sich nicht ständig #Wiederholt?
- - [ ] dass der #Kontext nicht stimmt?
- - [ ] dass der #Chatbot keine #Halluzination hat?
- - [ ] dass die #Fakten verdreht wurden?
- - [ ] dass #Fakten falsch benannt / dargestellt wurden?
- - [ ] #PunktUndKommasetzung?
-- [ ] Gibt es #Sprachlimitierungen und wenn ja, welche?
-
-- [ ] Wie binde ich einen #Chatbot an? (API Schnittstelle oder Listen on Port?)
-- [ ] Welche #Architektur will ich bevorzugen?
-- [ ] Wie kann ich meine #Software #Testen?
-- [ ] Kann ich mit einem geeigneten #Datensatz fachgerecht #Testen?
-
-# Fragen zu den Zielen und dem daraus res. Zeitplan
-- [ ] Welche #Ziele sind im Zeitrahmen einhaltbar?
-- [ ] Welche #Arbeitspakete können anhand der Ziele Definiert werden?
-- [ ] In welcher Form kann der #Zeitplan effizient umgesetzt werden
+- Wie Prüfe ich die Webseiten, die durch KI-Tools (wie ChatGPT und Perplexity) verwendet werden und ob die Informationen von dort stimmen?
+- Kann ich dafür eine Trainierte Variante von ModernBert verwenden?
+- Kann ich das Model Kontext Protokol dafür einbinden? oder reicht RAG?
+- Wie Werte ich die Datensätze aus und entscheide ob diese meinem Ziel entsprechen.
\ No newline at end of file
diff --git a/Kommentare.md b/Kommentare.md
new file mode 100644
index 0000000..1776b04
--- /dev/null
+++ b/Kommentare.md
@@ -0,0 +1,54 @@
+Motivation, Problembeschreibung
+
+Literaturzitate
+CodeHalu -
+
+Will ich Halluzinationen erkennen?
+Will ich es Klassifizieren?
+Auf einen Use-Case runterbrechen
+Können wir die Ergebnisse nachvollziehen?
+Wo will ich das andocken?
+Wieso ist eine solche Klassifikation wichtig?
+Mit welcher Methode will ich es nachvollziehen?
+
+Nähere Beschreibung des Benchmarks
+Wie sehen die Datensätze aus?
+Einführung des State of the Art mit den Benchmarks?
+
+Genauere Vorstellung der Architektur von LettuceDetect.
+2 Szenarien, gelesen in Literatur und SE
+
+Aufstellung eines Frameworks um Halluzinationsentdeckung, hlift das?
+Ich habe so eine Pipeline und kann das einbinden an ein Konkretes Projekt.
+Proof of concept, definierung des Projektes und LettuteDetect
+
+Schwammige Formulierung in Motivation.
+Problembeschreibung: wer macht bereits Halluzinationsentdeckung in Code
+
+Was leisten die einzelnen Komponenten und wie kann ich das Proof of concept aufstellen?
+
+Part mit LLM wird noch nicht verstanden.
+Für proof of principle
+
+Dem Leser stärker Erklären wo angesetzt wird.
+
+Bauen von etwas was in der Literatur
+
+Was man amchen k:onnte wäre eine überprüfung die könnten etwas bis zu einem bestimmten Grad erkennen.
+Praktischer Versuch: Proof of Principle, kann ich damit iwi arbeiten
+Beispielprojekt aufsetzen
+
+Anhand welcher Aufgabentypen kann ich besonders addressieren? Mit welchen Sprachmodellen will ich da ran gehen.
+
+Seite mehr ist nicht schlimm
+aa was ist das ziel
+b an wen richtet sich das ganze
+
+Knackpunkt proof of principle, stelle der Code-Generierung Copilot Pipeline an Copilot hinzufügen
+
+verschiedene Aussagen vorne rausgreifen. Datensatz zusammenstellen in Anlehnung der Datensätze möglicherweise
+2-3 Methoden um Halluzinationsentdeckung aus codehalu einbinden
+welche schritte von pipeline
+
+woher kommt der generierte Code???
+an wen richtet sich das ganze?
\ No newline at end of file
diff --git a/Methodologie.md b/Methodologie.md
index e69de29..d576bff 100644
--- a/Methodologie.md
+++ b/Methodologie.md
@@ -0,0 +1,26 @@
+Verfassung eines Exposés
+Grundidee immer gleich
+- Problembeschreibung
+- Ressourcen
+
+Ressourcen: Nils Vehske, Lars Braubach, Ute Bohnebeck
+
+Für Erkennung sollte man sich die Datensets anschauen.
+
+HuDEX schicken
+
+Welche Art von Pipeline und architektur kann man da zusammenbauen um Haluzination zu entdecken und ausführen zu können?
+
+Mit der RAG-Pipeline erhält man einen Corpus
+
+Welche Art von Daten werden verwendet?
+
+Vorletzte Woche 26-Wieder da.
+
+Termin letzte Semesterwoche letzte Januarwoche.
+
+Unterlagen 26-30 Januar abschicken.
+
+Dienstag 11 Uhr 3.Februar
+
+Zweitgutachter anschauen: Draheim, Braubach, (Matevska) oder andere von Interesse.
\ No newline at end of file
diff --git a/Themen/Recherche/Automated Essay Scoring.md b/Themen/Recherche/Automated Essay Scoring.md
deleted file mode 100644
index 2d656e4..0000000
--- a/Themen/Recherche/Automated Essay Scoring.md
+++ /dev/null
@@ -1,4 +0,0 @@
-Automated Essay Scoring scheint eine Teilgebiet zu sein, welches noch eine Menge arbeit erfordert und dementsprechend möglicherweise nicht all zu anfassbar zu sein scheint.
-
-KI könnte hier zwar helfen, aber das hinzufügen einer Blackbox kann zu unerwünschten Nebeneffekte führen (schwere Nachvollziehbarkeit, mögliche Beeinflussung durch übergebene Texte).
-
diff --git a/Themen/Recherche/Evaluationsmethoden/Precision@2.md b/Themen/Recherche/Evaluationsmethoden/Precision@2.md
new file mode 100644
index 0000000..11ca161
--- /dev/null
+++ b/Themen/Recherche/Evaluationsmethoden/Precision@2.md
@@ -0,0 +1,2 @@
+Teilmenge von Token-F1
+**Beurteilung eines binären Klassifikators**
diff --git a/Themen/Recherche/Evaluationsmethoden/ROUGE-L.md b/Themen/Recherche/Evaluationsmethoden/ROUGE-L.md
new file mode 100644
index 0000000..0173deb
--- /dev/null
+++ b/Themen/Recherche/Evaluationsmethoden/ROUGE-L.md
@@ -0,0 +1,4 @@
+**Recall-Oriented Understudy for Gisting Evaluation**
+Vergleicht ein Produkt gegen Referenzmaterialien und deckt mitunter n-grams automatisch.
+
+Wertemengel zwischen 0 und 1, 1 stehend für eine höhere Similarität zum Referenzmaterial.
\ No newline at end of file
diff --git a/Themen/Recherche/Evaluationsmethoden/Span-IoU.md b/Themen/Recherche/Evaluationsmethoden/Span-IoU.md
new file mode 100644
index 0000000..3595178
--- /dev/null
+++ b/Themen/Recherche/Evaluationsmethoden/Span-IoU.md
@@ -0,0 +1,2 @@
+Informationsextraktion, wurden die korrekten Daten extrahiert?
+Dies steht in direktem Bezug zur korrekten Datenextraktion durch ein LLM-System
\ No newline at end of file
diff --git a/Themen/Recherche/Evaluationsmethoden/Token-F1.md b/Themen/Recherche/Evaluationsmethoden/Token-F1.md
new file mode 100644
index 0000000..7c0d1d7
--- /dev/null
+++ b/Themen/Recherche/Evaluationsmethoden/Token-F1.md
@@ -0,0 +1,17 @@
+Klassifikator ist selber ebenfalls fehleranfällig und kann in manchen Fällen ein Objekt einer falschen Klasse zuweisen.
+
+# Sensitivität/Richtig-positiv-Rate
+Auch Empfindlichkeit oder Trefferquote gibt Wahrsch. mit der ein Objekt korrekt als positiv klassifiziert wird.
+
+# Falsch-negativ-Rate
+Fälschlich als negativ klassifizierte Objekte
+
+# Spezifität
+Richtig-negativ-Rate gibt die Wahrscheinlichkeit mit der ein negatives Objekt korrekt als negativ kassifiziert wird.
+
+# Falsch-positive-Rate
+Auch Ausfallrate, gibt den Anteil der fälschlich als positiv klassifizierten Objekte an, die in Wirklichkeit negativ sind.
+
+# Zusammenfassung
+Wir sehen hier eine relation zwischen Sensitivität und Spezifität, ein Ausgleich sollte beim Trainingsprozess ermittelt werden.
+![https://de.wikipedia.org/wiki/Beurteilung_eines_bin%C3%A4ren_Klassifikators#Kombinierte_Ma%C3%9Fe]()
diff --git a/Themen/Recherche/Evaluationsmethoden/n-gram Overlap.md b/Themen/Recherche/Evaluationsmethoden/n-gram Overlap.md
new file mode 100644
index 0000000..800b525
--- /dev/null
+++ b/Themen/Recherche/Evaluationsmethoden/n-gram Overlap.md
@@ -0,0 +1,3 @@
+Vorhersagen der nächsten Wörter einstimmig? Grundlegende Grammatik der Programmiersprache wirde hier möglicherweise getestet.
+
+![https://fr.wikipedia.org/wiki/N-gramme]()
diff --git a/Themen/Recherche/Grammatik.md b/Themen/Recherche/Grammatik.md
deleted file mode 100644
index 667cbd0..0000000
--- a/Themen/Recherche/Grammatik.md
+++ /dev/null
@@ -1,7 +0,0 @@
----
-tags:
- - Grammatik
- - NLTK
- - NLP
----
-Zur Überprüfung der Grammatik kann von #NLTK folgendes aus der Dokumentation verwendet werden: [nltk.grammar](https://www.nltk.org/api/nltk.grammar.html)
diff --git a/Themen/Recherche/MCP.md b/Themen/Recherche/MCP.md
new file mode 100644
index 0000000..9e3cbf9
--- /dev/null
+++ b/Themen/Recherche/MCP.md
@@ -0,0 +1,2 @@
+
+https://github.com/QuixiAI/dolphin-mcp/tree/main
diff --git a/Themen/Recherche/Natural Language Processing.md b/Themen/Recherche/Natural Language Processing.md
deleted file mode 100644
index e4a4459..0000000
--- a/Themen/Recherche/Natural Language Processing.md
+++ /dev/null
@@ -1,2 +0,0 @@
-
-Das Modul #NLTK kann für #NLP verwendet werden.
\ No newline at end of file
diff --git a/Themen/Recherche/Training von eigenen KI-Modellen.md b/Themen/Recherche/Training von eigenen KI-Modellen.md
new file mode 100644
index 0000000..e69de29
diff --git a/Umsetzung/.$Untitled Diagram.drawio.bkp b/Umsetzung/.$Untitled Diagram.drawio.bkp
new file mode 100644
index 0000000..dd32a08
--- /dev/null
+++ b/Umsetzung/.$Untitled Diagram.drawio.bkp
@@ -0,0 +1,102 @@
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
diff --git a/Umsetzung/Untitled Diagram.drawio b/Umsetzung/Untitled Diagram.drawio
new file mode 100644
index 0000000..ca83fdb
--- /dev/null
+++ b/Umsetzung/Untitled Diagram.drawio
@@ -0,0 +1,102 @@
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+