데이터 품질관리, CI/CD 검증, Telegram 알림 및 Rollback 구조
요약:
REINDEERS는 6월 말, 데이터 품질을 코드 품질과 동일한 수준으로 관리하기 시작했다. 모든 배포는 이제 코드 테스트뿐 아니라 데이터 정합성 검증을 통과해야만 진행된다. 오류가 발생하면 Drone CI 단계에서 자동으로 중단되며, Telegram Bot을 통해 운영자에게 즉시 보고된다. Telegram 명령어를 통해 승인·롤백까지 원격으로 처리할 수 있다.
1. 배경 — “데이터가 코드다”
REINDEERS 플랫폼은 다국가·다통화 데이터를 실시간으로 처리한다. 그러나 시스템이 복잡해질수록 코드보다 더 위험한 것은 “데이터 불일치”였다. 6월 초, PO 테이블의 통화 코드 누락으로 결제 금액 계산 오류가 발생했다. 개발 로직에는 문제가 없었지만, 데이터 무결성이 깨져 있었다. 이 사건을 계기로 REINDEERS는 데이터 품질관리(DQM, Data Quality Management)를 DevOps 파이프라인에 통합하기로 했다.
2. 품질관리 체계의 원칙
- ① 모든 품질검증은 SQL 기반 선언형 규칙으로 정의된다.
- ② 검증은 Drone CI 단계에서 자동으로 실행된다.
- ③ 오류 발생 시 Telegram으로 실시간 보고된다.
- ④ Telegram 명령을 통해 승인·롤백을 원격 수행할 수 있다.
이로써 “사람이 직접 확인하는 검증”은 사라지고, 시스템이 스스로 데이터의 정합성을 감시하는 구조로 바뀌었다.
3. Quality Schema — SQL 기반 검증 정의
모든 데이터 품질 규칙은 data_quality_check 테이블에 저장된다.
규칙은 SQL 구문으로 선언되며, Drone 파이프라인에서 순차적으로 실행된다.
CREATE TABLE data_quality_check (
id BIGINT PRIMARY KEY AUTO_INCREMENT,
table_name VARCHAR(128),
check_name VARCHAR(128),
check_sql TEXT,
severity ENUM('INFO','WARN','ERROR') DEFAULT 'ERROR',
last_run DATETIME,
result TEXT
);
INSERT INTO data_quality_check (table_name, check_name, check_sql, severity)
VALUES
('order_po', 'missing_currency',
'SELECT COUNT(*) FROM order_po WHERE currency IS NULL', 'ERROR'),
('i18n_text', 'missing_language_key',
'SELECT key_name FROM i18n_text GROUP BY key_name HAVING COUNT(*) < 5', 'WARN'),
('currency_rate_norm', 'triangular_arbitrage_check',
'SELECT 1 WHERE ABS((SELECT rate FROM currency_rate_norm WHERE base_currency="USD" AND quote_currency="THB") -
(SELECT rate FROM currency_rate_norm WHERE base_currency="USD" AND quote_currency="KRW") *
(SELECT rate FROM currency_rate_norm WHERE base_currency="KRW" AND quote_currency="THB")) < 0.002)', 'ERROR');
새로운 검증을 추가할 때는 코드 변경이 필요 없다. 규칙이 등록되면 Drone이 자동으로 인식해 다음 빌드부터 적용된다.
4. Drone CI 통합 구조
Drone CI는 코드 빌드와 동일한 단계에서 데이터 검증을 수행한다.
테스트 중 severity='ERROR' 항목이 발견되면 파이프라인이 즉시 중단된다.
실패 결과는 Telegram 알림으로 전송된다.
kind: pipeline
type: docker
name: data-quality-pipeline
trigger:
event: [ push, custom ]
steps:
- name: run-quality-check
image: mysql:8
environment:
DB_HOST: reindeers-db
DB_USER: root
DB_PASS: $$DB_PASS
TELEGRAM_TOKEN: $$TELEGRAM_TOKEN
TELEGRAM_CHAT_ID: $$TELEGRAM_CHAT_ID
commands:
- echo "Running Data Quality Checks..."
- mysql -h $DB_HOST -u $DB_USER -p$DB_PASS -D reindeers -e "
SET @fail=0;
CALL run_all_quality_checks(@fail);
IF @fail > 0 THEN
SELECT '❌ Data quality check failed';
EXIT 1;
ELSE
SELECT '✅ All checks passed';
END IF;"
- python3 notify_telegram.py $?
Python 스크립트 notify_telegram.py는 Drone의 종료 코드를 인자로 받아,
실패 시 Telegram Bot으로 알림을 전송한다.
5. Telegram Bot 알림
Slack 대신 Telegram이 사용된다. Telegram의 장점은 Bot을 통해 명령 기반 승인/롤백이 가능하다는 것이다. 운영자는 모바일이나 PC에서 직접 명령을 입력해 즉시 시스템에 개입할 수 있다.
import os, requests, sys
TOKEN = os.getenv("TELEGRAM_TOKEN")
CHAT_ID = os.getenv("TELEGRAM_CHAT_ID")
status = int(sys.argv[1])
if status != 0:
msg = "🚨 *REINDEERS Data Quality Check Failed*\n" \
"배포가 중단되었습니다.\n" \
"원인: 데이터 정합성 오류 감지\n" \
"명령: `/rollback` 으로 직전 버전 복원 가능"
else:
msg = "✅ Data Quality Passed.\n데이터 검증이 정상적으로 완료되었습니다."
requests.post(f"https://api.telegram.org/bot{TOKEN}/sendMessage",
json={"chat_id": CHAT_ID, "text": msg, "parse_mode": "Markdown"})
Telegram 메시지의 예시는 다음과 같다.
“🚨 REINDEERS Data Quality Check Failed — 배포 중단, /rollback 입력 시 복원 실행”
6. Telegram 기반 Rollback 명령
Telegram Bot은 명령어 /rollback 을 통해
직전 안정 버전으로 시스템을 복원한다.
모든 명령은 Cloud Function으로 전달되어
데이터베이스와 배포 이력을 갱신한다.
import os, pymysql, requests
def handle_rollback():
conn = pymysql.connect(host=os.getenv("DB_HOST"),
user="root",
password=os.getenv("DB_PASS"),
database="reindeers")
with conn.cursor() as c:
c.execute("SELECT version_id FROM release_history WHERE status='STABLE' ORDER BY deployed_at DESC LIMIT 1")
version = c.fetchone()[0]
c.execute("UPDATE release_history SET status='ROLLED_BACK' WHERE version_id=%s", (version,))
conn.commit()
requests.post(f"https://api.telegram.org/bot{os.getenv('TELEGRAM_TOKEN')}/sendMessage",
json={"chat_id": os.getenv("TELEGRAM_CHAT_ID"),
"text": f"⚙️ 이전 안정 버전({version})으로 복원 완료."})
Rollback 과정은 완전 자동이지만, 명령 입력은 사람(운영자)의 승인 루프로 제한된다. 자동화와 통제의 균형이 유지된다.
7. 품질 로그 및 추세 관리
모든 검증 결과는 data_quality_log에 기록된다.
각 항목은 실행시간, 결과, 메시지를 포함하며
매일 기준 데이터를 집계해 품질 트렌드를 산출한다.
CREATE TABLE data_quality_log (
id BIGINT PRIMARY KEY AUTO_INCREMENT,
check_name VARCHAR(128),
result ENUM('PASS','FAIL'),
message TEXT,
executed_at DATETIME DEFAULT CURRENT_TIMESTAMP
);
품질지표는 Telegram 명령어 /quality 로 요청할 수 있다.
Bot은 최근 7일간의 통계(성공률, 실패항목, 경고건수)를
텍스트 형태로 반환한다.
8. 운영 정책 — 승인 루프를 갖춘 자동화
REINDEERS의 운영철학은 단순하다. “자동화하되, 승인 루프를 반드시 포함한다.” 모든 복구는 Telegram Bot이 수행하지만, 명령은 운영자만 입력할 수 있다. 이 방식은 보안성과 기민함을 동시에 보장한다.
실제 운영에서는 QA나 DevOps가 Telegram을 통해 `/rollback`, `/status`, `/quality` 명령을 실행하며 시스템 상태를 실시간으로 제어한다.
9. 결론 — 데이터 품질이 배포의 기준이 되다
REINDEERS의 6월은 “데이터 검증 자동화”라는 한 문장으로 요약된다. 이제 코드가 통과해야 하는 테스트처럼, 데이터도 통과하지 못하면 시스템은 배포되지 않는다. Telegram이 모든 품질정보의 실시간 통제 허브로 자리 잡았다.
데이터는 코드의 일부이며, 품질은 감시가 아니라 구조다. 자동화된 검증과 통제된 복구 체계는 REINDEERS가 글로벌 운영을 안정적으로 지속할 수 있는 가장 확실한 기술적 기반이 되었다.
Comments
Post a Comment