Article

OpenAI Privacy Filter: Skalierbare Web-Apps mit PII-Erkennung

openai privacy pii huggingface models

OpenAI hat seinen Privacy Filter auf Hugging Face veröffentlicht. Das 1,5 Milliarden Parameter-Modell mit 50 Millionen aktiven Parametern erkennt persönlich identifizierbare Informationen (PII) in einem einzigen Forward-Pass über 128.000 Token Kontext.

Acht PII-Kategorien

Das Modell deckt acht Kategorien ab: private_person, private_address, private_email, private_phone, private_url, private_date, account_number und secret. Die BIOES-Kodierung sorgt für saubere Span-Grenzen auch bei langen, mehrdeutigen Textpassagen.

Besonders bemerkenswert: Der gesamte Dokumentinhalt wird ohne Chunking verarbeitet, was bedeutet, dass Span-Offsets direkt mit dem gerenderten Text übereinstimmen. Kein Zusammenfügen fragmentierter Ergebnisse mehr.

Drei Anwendungen auf einen Schlag

Das Hugging Face Team demonstriert drei praktische Apps, die alle mit gradio.Server gebaut wurden:

Document Privacy Explorer: PDF oder DOCX hochladen, alle PII-Spans farbcodiert hervorgehoben zurückbekommen - mit Filter für Kategorien und Statistik-Dashboard.

Image Anonymizer: Bilder hochladen, automatische Schwärzung von Namen, E-Mails und Kontonummern, inklusive editierbarem Canvas für eigene Annotationen.

SmartRedact Paste: Sensiblen Text einfügen, öffentliche URL für die geschwärzte Version erhalten, privater Enthüllungs-Link für den Eigentümer.

Technische Highlights

Der @server.api(name=analyze_document)-Dekorator verbindet den Handler mit Gradios Queue-System und ermöglicht ZeroGPU-Komposition. Der gleiche Endpunkt ist sowohl vom Browser als auch von gradio_client erreichbar - ohne Code-Duplikation.

Die Apache 2.0-Lizenz macht das Modell für kommerzielle Anwendungen attraktiv. Erreicht State-of-the-Art-Performance auf dem PII-Masking-300k Benchmark.

Zum Hugging Face Blog