베타 오픈 준비: 국가별 시뮬레이션과 부하 테스트 자동화
1. 테스트 목적과 시나리오 설계
베타 오픈을 앞두고 가장 중요한 검증 항목은 세 가지였다.
- 1) 다국가 접속 부하 분산 — 각국 DNS 및 CDN 라우팅 검증
- 2) 데이터 일관성 — Redis와 MQ의 복제 지연 검증
- 3) 무중단 배포 및 장애 복구 — Cloud Function의 자율 회복 테스트
테스트는 AI Ops-Agent가 생성한 가상 세션을 이용해 수행됐다. 각국의 평균 사용 환경(네트워크 속도, 언어, 기기 비율)을 기반으로 50,000명의 가상 사용자를 생성하고, 실제 주문, 견적, 채팅, 결제 시나리오를 반복 실행했다.
시나리오는 단순 페이지 조회부터 복합 트랜잭션까지 5단계로 구성되었다. 1단계는 상품 검색과 카탈로그 조회, 2단계는 장바구니 추가와 견적 요청, 3단계는 결제 처리, 4단계는 주문 상태 변경과 MQ 이벤트 전파, 5단계는 배송 추적과 세션 유지 검증이다. 각 단계의 성공/실패 기준과 허용 응답 시간이 사전에 정의되었다.
2. 부하 테스트 방법론과 리전별 트래픽 분배
부하 테스트 도구로는 k6 기반의 스크립트를 사용했다. 각 리전별로 독립적인 테스트 러너가 배치되어, 해당 리전의 DNS를 통해 실제 서비스 경로로 트래픽을 발생시켰다. 트래픽은 Cloud Function에서 MQ, Redis, DB까지 실제 서비스 경로를 그대로 통과한다.
{
"country": "TH",
"user_id": "TH_839210",
"actions": ["login","view_product","add_cart","checkout"],
"latency": {"avg": 420, "max": 900}
}
리전별 트래픽 비율은 실제 사용 예측치를 기반으로 배분되었다.
- 태국: 35% (17,500명) - 주요 수요 시장
- 한국: 30% (15,000명) - 공급사 중심 접속
- 중국: 25% (12,500명) - 공급사 접속
- 말레이시아: 10% (5,000명) - 초기 진입 시장
테스트는 72시간 연속으로 실행되었다. 단순히 피크 트래픽만 시뮬레이션하는 것이 아니라, 시간대별 트래픽 변동 패턴도 반영했다. 태국 업무 시간(09:00~18:00 ICT)에 태국 트래픽이 집중되고, 한국 업무 시간(09:00~18:00 KST)에 한국 트래픽이 집중되는 식이다. 이를 통해 리전 간 트래픽이 동시에 몰리는 시간대의 부하도 검증할 수 있었다.
3. MQ 및 Redis 부하 테스트 결과
LavinMQ는 총 12개의 큐로 샤딩되어 동작했다. AI는 각 큐의 메시지 체류시간, ACK 속도, 소비자 수를 모니터링하며 자동으로 스케일링을 조정했다. Redis는 데이터 접근 패턴을 학습해 hot key를 감지하고 자동 TTL 조정을 수행했다.
*Queue Performance*
Q1: 320 msg/sec, avg delay 110ms
Q5: 280 msg/sec, avg delay 140ms
Q9: 305 msg/sec, avg delay 102ms
Total: 3,220 msg/sec
Redis hit ratio: 96.8%
Redis는 글로벌 클러스터 구조로 확장되어, 세션, 상품, 주문 데이터의 지역 간 복제 지연은 평균 240ms로 측정되었다. AI는 지연이 300ms 이상인 키를 감지하면 자동 복제 명령을 발행하여 지연을 보정했다.
4. 다중 리전 동기화 검증
부하 테스트에서 가장 까다로운 검증 항목은 다중 리전 간 데이터 동기화였다. 한 리전에서 재고가 변경되면 나머지 3개 리전에 1초 이내에 반영되어야 한다. 테스트에서는 의도적으로 동시 재고 변경을 발생시켜 race condition을 유발하고, 최종 상태가 올바른지 검증했다.
구체적으로, 동일 상품에 대해 4개 리전에서 동시에 주문을 발생시키는 시나리오를 1,000회 반복 실행했다. 재고가 1개 남은 상품에 4개 리전에서 동시 주문이 들어오면, 정확히 1건만 성공하고 나머지 3건은 재고 부족으로 거절되어야 한다. 이 검증에서 성공률은 100%였다. DB 레벨의 낙관적 잠금(Optimistic Lock)과 MQ 이벤트의 idempotency key가 함께 동작하여 중복 처리를 완벽히 차단했다.
5. Cloud Function의 자동 스케일링 및 무중단 배포
테스트 중 10,000건 이상의 동시 요청이 발생할 때 일부 Cloud Function에서 cold start 지연이 보고되었다. Ops-Agent는 이 패턴을 감지하고 warm pool 크기를 자동으로 조정했다. 평균 cold start 지연은 1.4초에서 350ms로 감소했다.
Drone CI와 연동된 배포 테스트에서는, Function의 버전이 자동 전환되는 과정에서 서비스 중단이 발생하지 않도록 Canary Deployment 방식을 적용했다. 배포 성공률은 100%였고, 중단 시간은 0초로 측정되었다.
deploy:
strategy: canary
stages:
- 10% rollout (monitor 2m)
- 50% rollout (monitor 3m)
- 100% switch if error_rate < 0.5%
6. 데이터 마이그레이션 테스트
베타 오픈 전 기존 내부 테스트 데이터에서 실서비스 데이터로의 마이그레이션도 검증 대상이었다. 상품 카탈로그, 공급사 정보, 인증 데이터, 환율 이력 등의 데이터가 새로운 스키마에 정확히 매핑되는지 확인했다.
마이그레이션은 "dry run" 모드를 먼저 실행하여 실제 데이터 변경 없이 매핑 결과만 검증하는 방식을 사용했다. dry run에서 발견된 매핑 오류를 수정한 후 실제 마이그레이션을 수행했다. 전체 마이그레이션 소요 시간은 47분이었으며, 데이터 정합성 검증 결과 불일치 건수는 0건이었다.
7. 롤백 절차 테스트
배포 후 심각한 오류가 발견될 경우를 대비한 롤백 절차도 테스트했다. Cloud Function의 이전 버전으로 즉시 복원하는 시나리오, DB 스키마 변경을 되돌리는 시나리오, Redis 캐시를 전체 무효화하는 시나리오를 각각 실행했다.
가장 중요한 검증은 "롤백 후 데이터 일관성 유지" 여부였다. 새 버전에서 처리된 이벤트가 이전 버전에서도 올바르게 해석되는지, MQ에 남아있는 미처리 메시지가 롤백 후에도 정상 소비되는지를 확인했다. 롤백 소요 시간은 평균 12초였으며, 롤백 과정에서 데이터 손실은 발생하지 않았다.
8. 파트너 온보딩 시뮬레이션
부하 테스트와 별개로, 실제 공급사와 바이어가 플랫폼에 처음 접속하는 온보딩 시나리오도 시뮬레이션했다. 회원가입부터 상품 등록, 첫 견적 요청, 첫 주문 처리까지의 전체 플로우를 각 국가별 언어와 통화 설정으로 테스트했다.
온보딩 시뮬레이션에서 발견된 주요 이슈는 세 가지였다. 첫째, 태국어 입력 시 상품명 검색의 토큰화 오류. 둘째, 중국 공급사 등록 시 사업자번호 형식 검증 규칙의 불일치. 셋째, 말레이시아 통화(MYR) 소수점 처리의 반올림 차이. 이 세 가지 이슈는 모두 베타 오픈 전에 수정되었다.
9. 모니터링 지표와 알림 체계
테스트 기간 동안 모니터링한 핵심 지표는 다음과 같다.
- 응답 시간 (p50, p95, p99)
- 에러율 (HTTP 5xx 비율)
- MQ 메시지 체류 시간
- Redis hit/miss ratio
- 리전 간 동기화 지연
- Cloud Function cold start 빈도
- 데이터 일관성 비율
모든 지표는 Telegram 기반 대시보드로 실시간 보고되었으며, 사전 정의된 임계값을 초과하면 즉시 알림이 발송되었다. 예를 들어 p99 응답 시간이 2초를 초과하거나, 에러율이 1%를 넘으면 Ops-Agent가 자동으로 원인 분석을 시작하고 결과를 보고했다.
*Load Test Final Report - 72h*
Avg Response: 420ms (p50: 310ms, p95: 780ms, p99: 1,200ms)
Error Rate: 0.18%
Data Consistency: 99.4%
CDN Cache Hit: 98.3%
Cloud Function Success: 99.8%
MQ Throughput: 3,200 msg/sec
Redis Hit Ratio: 96.8%
Auto-Recovery Events: 9 (all resolved)
Downtime: 0s
10. AI 기반 장애 탐지 및 자율 복구
테스트 도중 9건의 장애 이벤트가 보고되었다. 대부분 MQ 커넥션 리셋, Function 오류 응답, Redis timeout이었다. AI Ops-Agent는 오류 로그를 분석해 원인을 분류하고, 반복되는 오류 패턴을 "persistent issue"로 학습했다.
if error_pattern.count > 3:
trigger_auto_repair(error_pattern)
notify("Auto repair executed for MQ connection pool")
자동 복구 성공률은 96.7%, 평균 복구 소요 시간은 28초였다. 9건의 장애 모두 관리자 개입 없이 자동으로 해결되었다.
11. 최종 결과 및 베타 오픈 준비 완료
4개국 동시 부하 테스트 결과, 시스템은 예측 범위 내에서 안정적으로 동작했다. 전체 72시간의 시뮬레이션 중 다운타임은 0초였으며, 자동 복구 루프가 모든 오류를 실시간으로 처리했다.
부하 테스트를 통해 확인된 것은 시스템의 성능만이 아니다. 데이터 마이그레이션, 롤백 절차, 파트너 온보딩, 다중 리전 동기화 등 서비스 운영에 필요한 전체 프로세스가 검증되었다. 특히 의도적으로 장애를 유발하고 자동 복구를 확인하는 "Chaos Engineering" 방식의 테스트가 실 운영 환경에서의 안정성에 대한 확신을 주었다.
베타 오픈 준비는 완료되었다. 테스트에서 발견된 3건의 온보딩 이슈는 모두 수정되었고, 부하 테스트 결과 모든 지표가 목표 범위 내에 있다. MQ, Redis, Cloud Function, CDN, DB가 4개 리전에서 안정적으로 동작하며, 장애 발생 시 자동 복구가 가능한 상태임이 72시간 연속 테스트로 검증되었다.