openai/privacy-filter

Published:

github.com/openai/privacy-filter

뭐 하는 거

텍스트 안의 PII(개인식별정보) — 이메일, 전화번호, 날짜, 시크릿 키 등 8개 카테고리 — 를 토큰 단위로 찾아서 마스킹하는 모델. 1.5B 파라미터(active 50M)의 bidirectional token-classification 모델이고, 로컬에서 128K 컨텍스트를 한 번에 처리. Apache 2.0.

용도: 로그/데이터셋 sanitize, LLM 프롬프트 입력 전 필터, 온프레미스 PII 마스킹.

사용 예시

pip install -e .

# 한 번에 마스킹
opf "Alice was born on 1990-01-02."

# 평가
opf eval examples/data/sample_eval_five_examples.jsonl

# 파인튜닝
opf train /path/to/train.jsonl --output-dir /path/to/checkpoint