Translator-Agent와 데이터 품질 관리 체계
요약:
본 기록은 Translator-Agent의 도입 및 고도화 과정에서 발생한 기술적 이슈와 해결 과정을 다룬다. 다국어 상품 데이터의 품질을 AI가 자동으로 평가·보정하는 구조를 확립하는 것이 목적이었다. 번역 정확도, MQ 이벤트 동기화, 캐시 구조, 재번역 루프, 품질 메트릭 자동 보고 기능이 주요 내용이다.
1. 초기 Translator-Agent 도입 배경
7월 초, 플랫폼 내 등록된 상품 수가 20만 건을 초과하면서 다국어 데이터 품질 문제가 심각하게 드러났다. 기존에는 외부 번역 API를 호출해 결과를 저장하는 단순 구조였다. 하지만 언어별 품질 편차가 심했고, 카테고리·단위·브랜드명 등이 잘못 번역되는 사례가 누적되었다. 수동 교정 인력을 투입하지 않기 위해 “Translator-Agent”를 내부적으로 개발하기로 결정했다.
Translator-Agent의 설계 목표는 다음과 같았다.
- 번역 품질 자동 평가 및 등급화 (MACHINE / HUMAN / APPROVED)
- 다국어 텍스트 캐시 및 중복 요청 제거
- 문장 단위가 아닌 문맥 단위 번역 처리
- MQ 기반 병렬 번역 및 품질 피드백 루프 자동화
2. 아키텍처 설계 및 초기 구조
Translator-Agent는 MQ 이벤트 소비자로 동작한다.
product.created 또는 i18n.missing 이벤트를 수신하면 해당 상품의 기본 언어 데이터를 조회하고,
DeepSeek과 ChatGPT 모델을 혼합하여 번역을 수행한다.
DeepSeek은 대량 번역용, ChatGPT는 문맥 검증용으로 사용되었다.
def translate_product(evt):
pid = evt["product_id"]
base = db.get_product(pid)
for lang in ["en","ko","zh-CN","th","ms"]:
if lang == base.lang: continue
raw = glossary.apply(base.name, base.description)
draft = deepseek.translate(raw, target=lang)
refined = chatgpt.refine(draft, context=base.category)
db.save_translation(pid, lang, refined, quality="MACHINE")
publish("i18n.updated", {"id": pid, "lang": lang})
MQ 큐는 국가별로 분리되어 병렬 처리가 가능했다. 다만 초기에 DeepSeek API 요청 한도가 낮아, 하루 약 3만 건 이상 처리 시 오류가 빈번하게 발생했다. 이 문제는 캐시 구조를 추가하여 이미 번역된 문장은 재요청하지 않도록 수정함으로써 해결했다.
3. 중복 번역 및 품질 저하 문제
두 번째 이슈는 동일 문장이 중복 번역되는 문제였다. MQ 이벤트가 일시적으로 중복 발행되거나, DB 저장 직후 재번역 이벤트가 발행되는 경우였다. Translator-Agent가 이미 번역된 텍스트를 덮어쓰면서 품질 점수가 불안정하게 변했다.
우리는 Redis 기반의 번역 키 해시를 추가했다.
각 번역 요청 전에 hash(content+lang) 키를 조회해 중복 여부를 판단하도록 했다.
이미 존재하면 MQ 메시지를 소비하지 않고 로그만 남기도록 수정했다.
key = f"tr:{hashlib.md5((content+lang).encode()).hexdigest()}"
if redis.exists(key):
publish("i18n.skipped", {"lang": lang, "pid": pid})
else:
redis.set(key, 1, ex=86400)
process_translation(content, lang)
이 변경 이후 MQ 소비량은 약 35% 감소했고, 중복 번역은 90% 이상 줄었다. 품질 점수의 표준편차도 0.18 → 0.05 수준으로 안정화되었다.
4. 품질 평가 및 자동 보정 루프
번역 품질은 BLEU와 TER 지표를 기반으로 측정했다.
각 언어별 기준 점수는 BLEU ≥ 0.7, TER ≤ 0.3으로 설정했다.
Translator-Agent는 번역 후 품질이 기준 이하인 문장은 자동 재번역 대상에 등록한다.
재번역은 모델을 ChatGPT 단독으로 변경하고, context aware correction 모드를 적용한다.
score = bleu_score(ref_text, translated)
if score < 0.7:
corrected = chatgpt.correct(translated, base.category)
db.update_translation(pid, lang, corrected, quality="REWRITE")
publish("i18n.rewrite", {"id": pid, "lang": lang, "score": score})
평균 품질 점수는 3회 루프 이후 0.68 → 0.83으로 상승했다. BLEU 점수가 일정 임계값 이상일 경우 품질 등급을 “APPROVED”로 갱신하고, MQ를 통해 다른 서비스에 전파했다. 이후 Translator-Agent는 매일 새벽 품질 요약 보고서를 자동 생성하여 Telegram으로 발송했다.
5. 캐시 무효화 및 데이터 일관성 문제
번역 데이터가 갱신될 때 Redis 캐시와 MySQL 간 일관성이 깨지는 문제가 있었다. 일부 페이지가 갱신된 번역을 반영하지 못하고 이전 데이터를 그대로 노출했다. 이는 Cloud Function이 “i18n.updated” 이벤트를 받지 못했을 때 발생했다.
해결책으로 MQ 재시도 큐(DelayQueue)를 추가했다.
이벤트 수신이 실패한 경우 30초 후 재발행되도록 구성했다.
Function 로그는 Ops-Agent가 수집하여 Telegram /cache 명령으로 즉시 조회 가능하게 했다.
publish("cache.invalidate", {"kind":"i18n","id":pid,"lang":lang}, delay=30)
이후 페이지 캐시 불일치율은 2.4% → 0.3% 수준으로 감소했다. 동일 상품의 다국어 데이터를 동시에 요청해도, Redis TTL(15분) 내에서는 항상 최신 상태를 유지했다.
6. AI 에이전트 간 협업 및 우선순위 체계
Translator-Agent는 Classifier-Agent 및 Crawler-Agent와 동일한 MQ를 사용한다.
이벤트 혼선이 발생하지 않도록, 각 에이전트에 우선순위를 부여했다.
Crawler → Classifier → Translator 순으로 이벤트를 처리하며,
Translator-Agent는 product.normalized 이벤트를 반드시 수신한 이후에만 작동한다.
이 관계는 Agent-Registry에 선언적으로 정의되었다.
agents:
- name: crawler
priority: 1
- name: classifier
priority: 2
depends_on: ["crawler"]
- name: translator
priority: 3
depends_on: ["classifier"]
이 설정 이후, 각 에이전트의 처리 순서가 명확히 보장되었고, MQ 지연률은 60% 이상 개선되었다. 하루 평균 번역 처리량은 약 18만 건, 품질 점검 루프는 2만 건 수준에서 안정적으로 유지되고 있다.
7. 품질 보고 자동화 및 운영 피드백
Translator-Agent는 모든 번역 결과와 품질 점수를 요약해 Telegram으로 자동 보고한다.
Ops-Agent는 /quality 명령으로 지난 24시간의 번역 통계를 텍스트로 출력한다.
또한 품질 저하나 모델 응답 지연이 감지되면 /agent restart translator 명령으로 재시작을 수행한다.
품질 리포트 형식은 다음과 같다.
📊 *Translator-Agent Report*
Processed: 183,412 items
Average BLEU: 0.81
Rewrites: 2,948
Failures: 46
Skipped: 5,130
Cache Miss: 0.4%
8. 결론 및 현재 상태
Translator-Agent의 도입 이후, 수동 번역 프로세스는 완전히 제거되었다. AI는 크롤링된 원문 데이터를 수집하고, 자체적으로 번역, 검증, 보정, 저장, 품질 평가를 수행한다. MQ 이벤트를 통해 실시간으로 다른 시스템과 연동되며, 사람은 Telegram 리포트만 검토하면 된다.
번역 품질은 언어별 BLEU 기준 0.8 이상을 유지 중이며, 캐시 일관성, 이벤트 동기화, 품질 자동보정 루프 모두 안정화되었다. 향후에는 Classifier-Agent와 연계하여 문맥 기반 번역 재학습을 자동화할 예정이다.
Comments
Post a Comment