openai/privacy-filter
Published:
뭐 하는 거
텍스트 안의 PII(개인식별정보) — 이메일, 전화번호, 날짜, 시크릿 키 등 8개 카테고리 — 를 토큰 단위로 찾아서 마스킹하는 모델. 1.5B 파라미터(active 50M)의 bidirectional token-classification 모델이고, 로컬에서 128K 컨텍스트를 한 번에 처리. Apache 2.0.
용도: 로그/데이터셋 sanitize, LLM 프롬프트 입력 전 필터, 온프레미스 PII 마스킹.
사용 예시
pip install -e .
# 한 번에 마스킹
opf "Alice was born on 1990-01-02."
# 평가
opf eval examples/data/sample_eval_five_examples.jsonl
# 파인튜닝
opf train /path/to/train.jsonl --output-dir /path/to/checkpoint
