[ INDEX ARCHIVE // SYSTEM CATALOG ]

PROJEKTE &
QUELLCODE

Produktive Systeme, Open-Source-Bibliotheken und architektonische Arbeiten — im Detail dokumentiert. Vom durchsatzstarken Go-Backend bis zum feingetunten Sprachmodell: deterministische Lösungen unter realer Last.

01 Multilingual NLP Toolkit Python / spaCy / PyTorch 2024–2026 02 catalog-storage Go / gRPC / Kafka / PostgreSQL 2025–2026 03 whatsapp-ms PHP 8 / Symfony / Docker 2025 04 Cangoo Taxi System Go / Real-Time / AWS 2018–2023 05 Fine-Tuned LLM Models Hugging Face / LoRA / QLoRA 2024–2026

Multilingual NLP Toolkit

Eine Sammlung fokussierter, abhängigkeitsarmer NLP-Komponenten für morphologisch reiche Sprachen — gebaut für Fälle, an denen klassische Wörterbuch-Ansätze scheitern.

Das Herzstück ist eine bidirektionale, regelbasierte türkische Morphologie-Engine. Türkisch ist agglutinierend: Ein einziges Wort wie geliyormuşsunuz („anscheinend kommt ihr") stapelt Aspekt, Evidentialität, Person und Numerus auf den Stamm gel-. Die Engine beherrscht beide Richtungen — Analyse und Generierung — mit reinen Regeln: keine Modell-Downloads, kein Lookup-Server. Implementiert sind 2/4/8-fache Vokalharmonie, Konsonantenerweichung (kitap → kitabı), Pufferkonsonanten (y/n/s), Stammmutationen (git → gid-) und Leipzig-konformes Glossing.

from mnlp.turkish import TurkishMorphology tm = TurkishMorphology() tm.analyze("geliyormuşsunuz") # {'stem': 'gel', 'features': {'ASPEKT': 'progressive', # 'EVIDENTIALITY': 'indirect', 'PERSON': '2', 'NUMERUS': 'plural', ...}} tm.generate("ev", {"NUMERUS": "plural", "POSSESSION": "1pl", "KASUS": "ablative"}, pos="NOUN") # 'evlerimizden' („aus unseren Häusern") tm.gloss("geliyormuşsunuz") # 'GEL-PROG-EVID-P.2PL' (Leipzig-Glossing)

Daneben liefert das Toolkit drei weitere produktionserprobte Module: mnlp.grammar erkennt zusammengesetzte Tempora, Modi und Genus verbi für Deutsch und Englisch über Auxiliarketten-Analyse auf Dependency-Parses (spaCy). mnlp.alignment kapselt fast_align als robusten Python-Wrapper für Wort-Alignments. mnlp.modulation stellt FiLM-Conditioning-Module (Perez et al., 2018) für PyTorch bereit — inklusive Soft Selection und Gauß'scher Varianz-Propagation.

Dependency-light: Kernmodul läuft mit purer Standardbibliothek
Bidirektional: Analyse und Generierung aus einem Regelwerk
46 Unit Tests: optionale Abhängigkeiten werden automatisch geskippt
Battle-tested: entstanden aus realen Produktions-Experimenten

catalog-storage (GenericCatalog)

Ein durchsatzstarker, schema-flexibler Resource-Catalog-Service in Go: beliebige Business-Entitäten hinter einer gRPC-API — ohne Schema-Wildwuchs, ohne EAV-Antipattern.

Produkte, Polizzen, Fahrzeuge, Verträge: Statt für jeden Typ eine eigene Tabellenlandschaft zu pflegen, kombiniert das System ein stabiles Basis-Schema (resources, resource_links) mit domänenspezifischen Extension-Tables (pricing, vehicle, insurance, …). Queries deklarieren per Field Scoping, welche Feldgruppen sie benötigen — der Service joint und hydratisiert nur diese Extensions.

// WRITE-BEHIND-INGESTION PIPELINE gRPC Writes→Sharded In-Memory Buffer→Redpanda / Kafka→Ingest-Worker (1 pro Partition)→Bulk COPY→Partitioniertes PostgreSQL

// READ PATH gRPC Reads→Redis (State + Tiered Storage)→Field-scoped Hydration

Schreiboperationen werden aus einem sharded In-Memory-Buffer quittiert, asynchron nach Redpanda/Kafka gedraint und von partitionsgebundenen Ingest-Workern per Bulk-COPY in partitionsbewusstes PostgreSQL geschrieben. Hierarchien pflegt ein dedizierter Closure-Worker über materialisierte Pfad-Tabellen; komponierbare Resource-Bundles mit Slug-Routing (112-policy) erlauben progressive Feld-Filterung über ganze Objektbäume.

Write-behind: Acknowledge in Mikrosekunden, Persistenz entkoppelt
Partitionsbewusst: 1 Ingest-Worker pro Kafka-Partition, COPY statt INSERT
HA-Setup: Docker-HA-Compose, K8s-Deployments, PgBouncer-Pooling
Lastgetestet: k6-Extreme-Load-Szenarien im Repo enthalten
Closure Tables: materialisierte Hierarchiepfade, eigener Worker
Field Scoping: Reads zahlen nur für Felder, die sie brauchen

whatsapp-ms

Ein selbst gehosteter WhatsApp-Business-Microservice, der die Meta Cloud API hinter einer sauberen, deterministischen REST-Schnittstelle kapselt — multi-account-fähig und in Minuten deploybar.

Der Service übernimmt die komplette Konversationslogik: Nachrichten senden und empfangen, Konversationen, Kontakte und Templates verwalten — über mehrere WhatsApp-Business-Accounts und Teams hinweg. Eingehende Events der Meta Cloud API werden am Inbound-Webhook signaturverifiziert, asynchron über Symfony Messenger verarbeitet und als token-authentifizierte, signierte Webhooks an nachgelagerte Systeme weitergereicht.

// EVENT FLOW Meta Cloud API→Inbound Webhook (Signatur-Check)→Symfony Messenger Queue→Conversation Engine→Signierter Partner-Webhook

// COMMAND FLOW Client-System→REST API→Template / Message Dispatch→Meta Cloud API

Das Deployment ist vollständig containerisiert (MariaDB, Traefik-ready, setup-docker.sh) und ausführlich dokumentiert: separate Guides für REST-API, Meta-Webhook-Handling, Partner-Integration und Client-Anbindung liegen direkt im Repository.

Multi-Account: mehrere Business-Accounts & Teams in einer Instanz
Security: Meta-Signaturverifikation + signierte Outbound-Hooks
Asynchron: Symfony Messenger entkoppelt Webhook-Spitzen
Dokumentiert: API-, Webhook-, Partner- und Docker-Guides im Repo

Cangoo Taxi System

Das komplette technische Ökosystem einer Taxi-Plattform — als Mitgründer und CTO der Go4System GmbH entworfen, implementiert und bis zur Markteinführung verantwortet.

Vom ersten Git-Commit bis zum stabilen Live-Betrieb: Die zentrale Herausforderung war die fehlerfreie Echtzeit-Datenverarbeitung — kontinuierliche Positionsströme der Fahrzeugflotte, latenzkritische Dispatch-Zuordnung und transaktionssichere Fahrtenabwicklung unter realer Last. Die Architektur setzte auf skalierbare Go-Microservices mit Event-Streaming, betrieben auf AWS mit vollautomatisierten CI/CD-Pipelines.

Neben der Systemarchitektur umfasste die Rolle die technische Leitung des Entwicklerteams: Code-Standards, Review-Prozesse, Infrastruktur-Entscheidungen — und die tägliche Übersetzung von Business-Anforderungen in belastbare Technik. Fünf Jahre unternehmerische Gesamtverantwortung, von der Idee bis zum Betrieb.

100% In-House: gesamte Plattform ohne Fremd-Frameworks für den Kern
Echtzeit: Positions-Streams + Dispatch in Sub-Sekunden-Latenz
Team-Leadership: Aufbau und Führung des Entwicklerteams
Full Lifecycle: Konzeption → Architektur → Betrieb → Markteinführung

Fine-Tuned LLM Models

Feinabgestimmte Open-Source-Sprachmodelle für domänenspezifische Aufgaben — trainiert, evaluiert und öffentlich publiziert im Zuge der AI-Spezialisierung an der JKU Linz.

Der methodische Kern ist Parameter-Efficient Fine-Tuning (PEFT): Mit LoRA-Adaptern und 4-bit-quantisiertem QLoRA werden hochperformante Basismodelle bei minimalem Hardware-Footprint auf spezifische Domänen zugeschnitten — statt teurem Full-Fine-Tuning werden nur niedrigrangige Adaptermatrizen trainiert. Der Workflow umfasst Datenaufbereitung, Trainings-Runs, systematische Evaluierung und die Veröffentlichung der Gewichte auf dem Hugging Face Hub.

Ergänzend entstehen Retrieval-Augmented-Generation-Pipelines, die feingetunte Modelle mit semantischer Vektorsuche koppeln: Chunking-Strategien, Embedding-Auswahl, Re-Ranking und Grounding gegen geschützte Wissensbestände — der Brückenschlag zwischen Modellforschung und produktiver KI-Infrastruktur.

PEFT-Stack: LoRA-Adapter, QLoRA 4-bit-Quantisierung
Reproduzierbar: systematische Eval-Suites pro Trainings-Run
Öffentlich: Modelle und Cards auf dem Hugging Face Hub
RAG-Integration: Embeddings, Re-Ranking, semantische Suche