From b59d3d77b16d2ad0ec37ab0d87b1589d6dae4330 Mon Sep 17 00:00:00 2001 From: fzzinchemical Date: Fri, 27 Feb 2026 16:21:32 +0100 Subject: [PATCH] update0 --- Exposé/0_Problembeschreibung.md | 39 +++++-- Fragen.md | 24 +---- Kommentare.md | 54 ++++++++++ Methodologie.md | 26 +++++ Themen/Recherche/Automated Essay Scoring.md | 4 - .../Evaluationsmethoden/Precision@2.md | 2 + .../Recherche/Evaluationsmethoden/ROUGE-L.md | 4 + .../Recherche/Evaluationsmethoden/Span-IoU.md | 2 + .../Recherche/Evaluationsmethoden/Token-F1.md | 17 +++ .../Evaluationsmethoden/n-gram Overlap.md | 3 + Themen/Recherche/Grammatik.md | 7 -- Themen/Recherche/MCP.md | 2 + .../Recherche/Natural Language Processing.md | 2 - .../Training von eigenen KI-Modellen.md | 0 Umsetzung/.$Untitled Diagram.drawio.bkp | 102 ++++++++++++++++++ Umsetzung/Untitled Diagram.drawio | 102 ++++++++++++++++++ 16 files changed, 349 insertions(+), 41 deletions(-) create mode 100644 Kommentare.md delete mode 100644 Themen/Recherche/Automated Essay Scoring.md create mode 100644 Themen/Recherche/Evaluationsmethoden/Precision@2.md create mode 100644 Themen/Recherche/Evaluationsmethoden/ROUGE-L.md create mode 100644 Themen/Recherche/Evaluationsmethoden/Span-IoU.md create mode 100644 Themen/Recherche/Evaluationsmethoden/Token-F1.md create mode 100644 Themen/Recherche/Evaluationsmethoden/n-gram Overlap.md delete mode 100644 Themen/Recherche/Grammatik.md create mode 100644 Themen/Recherche/MCP.md delete mode 100644 Themen/Recherche/Natural Language Processing.md create mode 100644 Themen/Recherche/Training von eigenen KI-Modellen.md create mode 100644 Umsetzung/.$Untitled Diagram.drawio.bkp create mode 100644 Umsetzung/Untitled Diagram.drawio diff --git a/Exposé/0_Problembeschreibung.md b/Exposé/0_Problembeschreibung.md index 8202f0e..865056e 100644 --- a/Exposé/0_Problembeschreibung.md +++ b/Exposé/0_Problembeschreibung.md @@ -1,12 +1,35 @@ -Als 2022 OpenAI ihr #Chatbot ChatGPT der Öffentlichkeit freistellte wurden neue Automatisierungsprozesse ermöglicht. Redundante Arbeit konnte von nun an durch ein Chat-Bot teilweise durchgeführt werden. +Mit der ankunft von breit verwendeten LLMs wie ChatGPT, Gemini oder auch Llama bot sich eine neue Form der Arbeit im Bereich der Informatik, spezifisch dem schreiben von Code. -Diese Chat-bots jedoch können Fehler und Falschaussagen in generierte Texte hinzufügen, die schwerwiegende Probleme für Endnutzer:innen erzeugen können, die wir vorher so nicht gesehen hatten. +Das sogenannte Vibe-Coding ist ein bereits weit vertretener Begriff für Personen, die zur Erstellung von Code und Code-Architekturen auf KI-Modelle zugreifen um Personal und Arbeit zu reduzieren. -Bei der Verfassung und Generierung von Lernmaterial ist ein korrektes lernen von Fachvokabular und Kontext von besonderer Wichtigkeit, diese Thesis versucht eine Lösung für dieses Teilproblem zu lösen. +Problematisch sind jedoch Synthetic Error Injections bei generiertem Code, der zu unerwünschten Problemen führen kann. Beispiele hierfür sind undefinierte Variablen, fehlende Imports, Typenfehler, Off-By-One-Fehler und logic contradicitons. -Ziel soll es sein eine Applikation zu entwickeln, welche sich zwischen einen Chat-Bot und den Endnutzer:innen schalten kann oder per Copy-Paste einen Text auf folgende Kriterien prüfen soll: -- Korrektheit von Kontext bei verwendeten Schlüsselwörtern -- Verwendete Grammatik -- Kohärenz von Informationen +Diese Thesis behandelt diese Problematik, indem -Um dies zu erfüllen soll "natural language processing ( #NLP)" verwendet werden. Eine weitere KI würde nur neue Probleme bzw. bereits existierende Probleme nicht immer erfassen können. \ No newline at end of file +```mermaid +gantt + +title Zeitplan (9 Wochen) + +dateFormat YYYY-MM-DD + +section Pakete + +1. Baseline :2026-04-01, 3d + +2. Datensatz-Plan :2026-04-04, 7d + +3. Datensatz-Erst.:2026-04-11, 14d + +4. BERT-Setup :2026-04-25, 4d + +5. MCP-Infrastr. :2026-04-29, 7d + +6. Frontend :2026-05-6, 3d + +7. Fine-Tuning :2026-05-9, 7d + +8. Analyse :2026-05-16, 7d + +Puffer :crit, 2026-05-023, 14d +``` diff --git a/Fragen.md b/Fragen.md index 276f70e..aba1ee0 100644 --- a/Fragen.md +++ b/Fragen.md @@ -3,23 +3,7 @@ tags: - Fragen --- # Fragen zum Thema und zur Umsetzung -- [ ] Wie ermittel ich Fachgerecht die: - - [ ] #Grammatik? - - [ ] #Rechtschreibung? - - [ ] dass sich der #ChatBot sich nicht ständig #Wiederholt? - - [ ] dass der #Kontext nicht stimmt? - - [ ] dass der #Chatbot keine #Halluzination hat? - - [ ] dass die #Fakten verdreht wurden? - - [ ] dass #Fakten falsch benannt / dargestellt wurden? - - [ ] #PunktUndKommasetzung? -- [ ] Gibt es #Sprachlimitierungen und wenn ja, welche? - -- [ ] Wie binde ich einen #Chatbot an? (API Schnittstelle oder Listen on Port?) -- [ ] Welche #Architektur will ich bevorzugen? -- [ ] Wie kann ich meine #Software #Testen? -- [ ] Kann ich mit einem geeigneten #Datensatz fachgerecht #Testen? - -# Fragen zu den Zielen und dem daraus res. Zeitplan -- [ ] Welche #Ziele sind im Zeitrahmen einhaltbar? -- [ ] Welche #Arbeitspakete können anhand der Ziele Definiert werden? -- [ ] In welcher Form kann der #Zeitplan effizient umgesetzt werden +- Wie Prüfe ich die Webseiten, die durch KI-Tools (wie ChatGPT und Perplexity) verwendet werden und ob die Informationen von dort stimmen? +- Kann ich dafür eine Trainierte Variante von ModernBert verwenden? +- Kann ich das Model Kontext Protokol dafür einbinden? oder reicht RAG? +- Wie Werte ich die Datensätze aus und entscheide ob diese meinem Ziel entsprechen. \ No newline at end of file diff --git a/Kommentare.md b/Kommentare.md new file mode 100644 index 0000000..1776b04 --- /dev/null +++ b/Kommentare.md @@ -0,0 +1,54 @@ +Motivation, Problembeschreibung + +Literaturzitate +CodeHalu - + +Will ich Halluzinationen erkennen? +Will ich es Klassifizieren? +Auf einen Use-Case runterbrechen +Können wir die Ergebnisse nachvollziehen? +Wo will ich das andocken? +Wieso ist eine solche Klassifikation wichtig? +Mit welcher Methode will ich es nachvollziehen? + +Nähere Beschreibung des Benchmarks +Wie sehen die Datensätze aus? +Einführung des State of the Art mit den Benchmarks? + +Genauere Vorstellung der Architektur von LettuceDetect. +2 Szenarien, gelesen in Literatur und SE + +Aufstellung eines Frameworks um Halluzinationsentdeckung, hlift das? +Ich habe so eine Pipeline und kann das einbinden an ein Konkretes Projekt. +Proof of concept, definierung des Projektes und LettuteDetect + +Schwammige Formulierung in Motivation. +Problembeschreibung: wer macht bereits Halluzinationsentdeckung in Code + +Was leisten die einzelnen Komponenten und wie kann ich das Proof of concept aufstellen? + +Part mit LLM wird noch nicht verstanden. +Für proof of principle + +Dem Leser stärker Erklären wo angesetzt wird. + +Bauen von etwas was in der Literatur + +Was man amchen k:onnte wäre eine überprüfung die könnten etwas bis zu einem bestimmten Grad erkennen. +Praktischer Versuch: Proof of Principle, kann ich damit iwi arbeiten +Beispielprojekt aufsetzen + +Anhand welcher Aufgabentypen kann ich besonders addressieren? Mit welchen Sprachmodellen will ich da ran gehen. + +Seite mehr ist nicht schlimm +aa was ist das ziel +b an wen richtet sich das ganze + +Knackpunkt proof of principle, stelle der Code-Generierung Copilot Pipeline an Copilot hinzufügen + +verschiedene Aussagen vorne rausgreifen. Datensatz zusammenstellen in Anlehnung der Datensätze möglicherweise +2-3 Methoden um Halluzinationsentdeckung aus codehalu einbinden +welche schritte von pipeline + +woher kommt der generierte Code??? +an wen richtet sich das ganze? \ No newline at end of file diff --git a/Methodologie.md b/Methodologie.md index e69de29..d576bff 100644 --- a/Methodologie.md +++ b/Methodologie.md @@ -0,0 +1,26 @@ +Verfassung eines Exposés +Grundidee immer gleich +- Problembeschreibung +- Ressourcen + +Ressourcen: Nils Vehske, Lars Braubach, Ute Bohnebeck + +Für Erkennung sollte man sich die Datensets anschauen. + +HuDEX schicken + +Welche Art von Pipeline und architektur kann man da zusammenbauen um Haluzination zu entdecken und ausführen zu können? + +Mit der RAG-Pipeline erhält man einen Corpus + +Welche Art von Daten werden verwendet? + +Vorletzte Woche 26-Wieder da. + +Termin letzte Semesterwoche letzte Januarwoche. + +Unterlagen 26-30 Januar abschicken. + +Dienstag 11 Uhr 3.Februar + +Zweitgutachter anschauen: Draheim, Braubach, (Matevska) oder andere von Interesse. \ No newline at end of file diff --git a/Themen/Recherche/Automated Essay Scoring.md b/Themen/Recherche/Automated Essay Scoring.md deleted file mode 100644 index 2d656e4..0000000 --- a/Themen/Recherche/Automated Essay Scoring.md +++ /dev/null @@ -1,4 +0,0 @@ -Automated Essay Scoring scheint eine Teilgebiet zu sein, welches noch eine Menge arbeit erfordert und dementsprechend möglicherweise nicht all zu anfassbar zu sein scheint. - -KI könnte hier zwar helfen, aber das hinzufügen einer Blackbox kann zu unerwünschten Nebeneffekte führen (schwere Nachvollziehbarkeit, mögliche Beeinflussung durch übergebene Texte). - diff --git a/Themen/Recherche/Evaluationsmethoden/Precision@2.md b/Themen/Recherche/Evaluationsmethoden/Precision@2.md new file mode 100644 index 0000000..11ca161 --- /dev/null +++ b/Themen/Recherche/Evaluationsmethoden/Precision@2.md @@ -0,0 +1,2 @@ +Teilmenge von Token-F1 +**Beurteilung eines binären Klassifikators** diff --git a/Themen/Recherche/Evaluationsmethoden/ROUGE-L.md b/Themen/Recherche/Evaluationsmethoden/ROUGE-L.md new file mode 100644 index 0000000..0173deb --- /dev/null +++ b/Themen/Recherche/Evaluationsmethoden/ROUGE-L.md @@ -0,0 +1,4 @@ +**Recall-Oriented Understudy for Gisting Evaluation** +Vergleicht ein Produkt gegen Referenzmaterialien und deckt mitunter n-grams automatisch. + +Wertemengel zwischen 0 und 1, 1 stehend für eine höhere Similarität zum Referenzmaterial. \ No newline at end of file diff --git a/Themen/Recherche/Evaluationsmethoden/Span-IoU.md b/Themen/Recherche/Evaluationsmethoden/Span-IoU.md new file mode 100644 index 0000000..3595178 --- /dev/null +++ b/Themen/Recherche/Evaluationsmethoden/Span-IoU.md @@ -0,0 +1,2 @@ +Informationsextraktion, wurden die korrekten Daten extrahiert? +Dies steht in direktem Bezug zur korrekten Datenextraktion durch ein LLM-System \ No newline at end of file diff --git a/Themen/Recherche/Evaluationsmethoden/Token-F1.md b/Themen/Recherche/Evaluationsmethoden/Token-F1.md new file mode 100644 index 0000000..7c0d1d7 --- /dev/null +++ b/Themen/Recherche/Evaluationsmethoden/Token-F1.md @@ -0,0 +1,17 @@ +Klassifikator ist selber ebenfalls fehleranfällig und kann in manchen Fällen ein Objekt einer falschen Klasse zuweisen. + +# Sensitivität/Richtig-positiv-Rate +Auch Empfindlichkeit oder Trefferquote gibt Wahrsch. mit der ein Objekt korrekt als positiv klassifiziert wird. + +# Falsch-negativ-Rate +Fälschlich als negativ klassifizierte Objekte + +# Spezifität +Richtig-negativ-Rate gibt die Wahrscheinlichkeit mit der ein negatives Objekt korrekt als negativ kassifiziert wird. + +# Falsch-positive-Rate +Auch Ausfallrate, gibt den Anteil der fälschlich als positiv klassifizierten Objekte an, die in Wirklichkeit negativ sind. + +# Zusammenfassung +Wir sehen hier eine relation zwischen Sensitivität und Spezifität, ein Ausgleich sollte beim Trainingsprozess ermittelt werden. +![https://de.wikipedia.org/wiki/Beurteilung_eines_bin%C3%A4ren_Klassifikators#Kombinierte_Ma%C3%9Fe]() diff --git a/Themen/Recherche/Evaluationsmethoden/n-gram Overlap.md b/Themen/Recherche/Evaluationsmethoden/n-gram Overlap.md new file mode 100644 index 0000000..800b525 --- /dev/null +++ b/Themen/Recherche/Evaluationsmethoden/n-gram Overlap.md @@ -0,0 +1,3 @@ +Vorhersagen der nächsten Wörter einstimmig? Grundlegende Grammatik der Programmiersprache wirde hier möglicherweise getestet. + +![https://fr.wikipedia.org/wiki/N-gramme]() diff --git a/Themen/Recherche/Grammatik.md b/Themen/Recherche/Grammatik.md deleted file mode 100644 index 667cbd0..0000000 --- a/Themen/Recherche/Grammatik.md +++ /dev/null @@ -1,7 +0,0 @@ ---- -tags: - - Grammatik - - NLTK - - NLP ---- -Zur Überprüfung der Grammatik kann von #NLTK folgendes aus der Dokumentation verwendet werden: [nltk.grammar](https://www.nltk.org/api/nltk.grammar.html) diff --git a/Themen/Recherche/MCP.md b/Themen/Recherche/MCP.md new file mode 100644 index 0000000..9e3cbf9 --- /dev/null +++ b/Themen/Recherche/MCP.md @@ -0,0 +1,2 @@ + +https://github.com/QuixiAI/dolphin-mcp/tree/main diff --git a/Themen/Recherche/Natural Language Processing.md b/Themen/Recherche/Natural Language Processing.md deleted file mode 100644 index e4a4459..0000000 --- a/Themen/Recherche/Natural Language Processing.md +++ /dev/null @@ -1,2 +0,0 @@ - -Das Modul #NLTK kann für #NLP verwendet werden. \ No newline at end of file diff --git a/Themen/Recherche/Training von eigenen KI-Modellen.md b/Themen/Recherche/Training von eigenen KI-Modellen.md new file mode 100644 index 0000000..e69de29 diff --git a/Umsetzung/.$Untitled Diagram.drawio.bkp b/Umsetzung/.$Untitled Diagram.drawio.bkp new file mode 100644 index 0000000..dd32a08 --- /dev/null +++ b/Umsetzung/.$Untitled Diagram.drawio.bkp @@ -0,0 +1,102 @@ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + diff --git a/Umsetzung/Untitled Diagram.drawio b/Umsetzung/Untitled Diagram.drawio new file mode 100644 index 0000000..ca83fdb --- /dev/null +++ b/Umsetzung/Untitled Diagram.drawio @@ -0,0 +1,102 @@ + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +