Skip to main content

시스템 설정 및 관계 구조

시스템 설정 및 관계 구조

요약:
본 기록은 시스템의 각 구성요소가 독립 서비스로 전환된 이후, 실제 운영 환경에서 안정적으로 동작하기 위해 설정된 구조와 관계를 다룬다. 모든 조정은 AI 에이전트 중심으로 이루어졌으며, 인프라 운영자의 수동 개입은 최소화되었다. 각 서비스 간의 데이터 연계, 글로벌 동기화, 캐시 구조, 그리고 AI 기반 검증 체계에 대해 실제 업무 진행 순서대로 기술한다.

1. 초기 상태 점검 및 서비스 간 데이터 경로 정의

프로젝트는 MCP 내부 서비스가 물리적으로 분리된 시점에서 시작되었다. 서비스는 정상적으로 기동되었지만, Redis와 MQ 사이의 데이터 경로가 불완전했다. 일부 이벤트는 발행되었으나 소비자 함수가 인식하지 못했고, 캐시 무효화 시점이 불일치했다.

문제의 원인은 큐 이름 충돌이었다. 6월 구조에서는 모든 이벤트가 default 토픽에 쌓였기 때문에, 이벤트 종류별 처리 우선순위를 분리할 수 없었다. 우리는 LavinMQ의 라우팅 키 구조를 다시 정의했다. 서비스 도메인별로 큐를 분리하여 이벤트 흐름을 시각적으로 구분했다.

product.* → Translator-Agent
session.* → Auth-Service / Redis Sync
cache.*   → Cloud Function(Cache Invalidator)
log.*     → Ops-Agent

이 설정을 적용한 후, MQ 메시지 지연은 평균 80ms 수준으로 안정화되었고, 이벤트 충돌 비율이 0.2% 미만으로 감소했다. 기존 수동 모니터링 대신 Ops-Agent가 주기적으로 큐 상태를 수집하고, 누락 이벤트가 10건 이상일 경우 자동 재전송하도록 설정했다.

2. Redis 세션 구조 재정의 및 글로벌 동기화 검증

세션 동기화는 두 리전(HK ↔ KR) 간 복제에서 가장 자주 문제가 발생하는 구간이었다. Redis의 async replication은 쓰기 폭주 시 레이턴시가 발생했고, 한쪽 리전의 TTL이 먼저 만료되는 현상이 있었다. 이를 완화하기 위해, Cloud Function을 이용한 세션 복제 검증 루프를 추가했다.

def verify_session_consistency():
    hk_keys = redis_hk.keys("SESSION:*")
    for key in hk_keys:
        data_hk = redis_hk.get(key)
        data_kr = redis_kr.get(key)
        if data_kr != data_hk:
            redis_kr.set(key, data_hk, ex=1800)
            publish("sync.repair", {"key": key})

AI Ops-Agent가 1시간 단위로 세션 일치율을 계산해 Telegram으로 보고한다. 초기에는 약 92% 수준이었으나, Function 병렬 처리 스케줄을 5분 단위로 조정한 후 99.4%까지 상승했다. Cloud Function은 평균 180ms 내에 모든 보정 작업을 완료했다.

3. COS 연동 및 프런트엔드 CDN 동기화 테스트

COS는 이미지 저장뿐 아니라 정적 자산 배포에도 사용된다. 처음에는 프런트엔드 빌드 파일과 상품 이미지가 같은 버킷에 업로드되어 캐시 갱신 시점이 어긋났다. 이로 인해 신규 빌드 후에도 사용자 브라우저가 구 버전 파일을 참조하는 현상이 발생했다.

해결책으로 정적 자산과 이미지 자산을 물리적으로 분리했다. 정적 자산은 cos://reindeers-cdn/site/, 이미지는 cos://reindeers-cdn/images/에 저장된다. CDN은 Tencent Global Accelerator를 사용해 국가별 edge cache를 분리하였고, Cache-Control 헤더를 자동 삽입하도록 Cloud Function을 확장했다.

on_file_upload(event):
    key = event["key"]
    if key.startswith("site/"):
        set_header("Cache-Control", "max-age=300, must-revalidate")
    elif key.startswith("images/"):
        set_header("Cache-Control", "max-age=604800, immutable")

빌드 후 프런트엔드 응답 캐시는 5분, 이미지 캐시는 7일로 조정되었고, 실시간 무효화는 Telegram 명령 /imagepurge로 수행된다.

4. AI 에이전트 협업 구조 조정

Translator-Agent와 Classifier-Agent가 동시에 MQ에 접근하는 과정에서 경쟁 상태가 보고되었다. 상품이 등록될 때 번역과 카테고리 분류가 동시에 실행되면 DB write lock이 충돌했다. 이를 해결하기 위해 “transactional queue” 개념을 도입했다. 같은 상품 ID의 이벤트는 동일한 라우팅 그룹에서만 처리되도록 설정했다.

routing_key = f"product.{event['id'] % 100}"
mq.basic_publish(exchange="amq.topic", routing_key=routing_key, body=json.dumps(event))

Translator-Agent는 우선순위가 낮은 queue에서 후순위로 처리되어 Classifier-Agent의 처리를 기다린다. AI 간의 충돌을 사람이 조정하지 않아도 되도록 학습된 rule set을 제공했고, 충돌 횟수는 하루 평균 40회에서 3회로 감소했다.

5. 로컬스토리지 세션 관리 및 클라이언트 동기화 검증

클라이언트 단의 세션은 LocalStorage를 기반으로 관리되며, 브라우저 간 동기화 이벤트를 사용해 여러 탭에서 자동 반영된다. 토큰 만료 시 자동 로그아웃 기능을 검증하기 위해 500회 이상의 시뮬레이션을 수행했다. 브라우저 탭 3개를 동시에 열고 로그인 → 토큰 만료 후 → Refresh Token을 재발급하는 시나리오를 반복 테스트했다.

window.addEventListener("storage", (e) => {
  if (e.key === "reindeers.access" && !e.newValue) {
    logout()
  }
})

Refresh Token이 만료될 때 다른 탭의 로그아웃 이벤트가 1초 이내에 반영되는 것을 확인했다. 실패 케이스 7건은 Safari 브라우저의 storage event 비동기 처리 문제였으며, 해당 브라우저는 폴링 방식으로 우회 처리했다.

6. Cloud Function 자동화 및 에러 회복 루틴

7월 중순 이후 MQ 처리량이 급격히 증가하면서 Cloud Function의 cold start 지연이 누적되었다. 평균 응답 지연은 400ms, 피크 타임에는 1.2초까지 늘었다. 이를 해결하기 위해 Functions Framework의 warm pool을 고정 풀(5개 인스턴스)로 지정하고, AI Ops-Agent가 10분 단위로 Function 상태를 점검해 자동 재시작하도록 했다.

if latency_avg > 800:
    publish("function.restart", {"name": "cache_invalidator"})
    send_telegram("⚠️ Function latency high, restart triggered")

재시작 루틴은 수동 개입 없이 작동했으며, 전체 처리량은 40% 향상되었다. 에이전트는 에러 패턴을 학습하여 비슷한 유형의 장애를 사전에 예측하도록 개선 중이다.

7. 결론 및 현재 상태

시스템은 완전히 자동화된 상태로 전환되었다. MQ 이벤트, 세션 복제, 캐시 무효화, 이미지 배포, Function 모니터링까지 모든 과정이 AI 에이전트에 의해 수행된다. 사람은 Telegram 리포트를 통해 결과만 확인한다.

주요 지표:

  • 세션 일치율 99.4%
  • 큐 누락 이벤트 0.18%
  • Function cold start 지연 75% 감소
  • AI 자동 조정 성공률 97%
이 기록을 기준으로 이후 단계에서는 Translator-Agent의 품질 검증과 카테고리 자동화 재구성으로 발전시킬 예정이다.

Comments

Popular posts from this blog

JD 플랫폼 매니저 (Platform Manager )

🇰🇷 플랫폼 매니저 (운영 / 글로벌 B2B & AI 기반 자동화 플랫폼) 회사명: (주)레인디어스 | Reindeers Co., Ltd. 근무지: 서울 / 방콕 (Hybrid 가능) 고용형태: 정규직 (계약-전환형 가능) ⸻ 회사 소개 레인디어스는 산업자재 및 무역 중심의 글로벌 B2B 플랫폼을 운영하는 기술 기반 기업입니다. 한국, 태국, 말레이시아, 중국 등 주요 아시아 시장에서 **견적–발주–물류(3PL)–통관–정산–재고관리(WMS)**를 통합 관리하는 시스템을 제공하며, AI 기반 자동화와 데이터 인사이트로 업무 효율과 무역 생산성을 혁신하고 있습니다. 레인디어스는 운영 중심의 플랫폼 관리 전문가를 찾습니다. 본 포지션은 플랫폼의 운영·유지·관리·발전·확장을 담당하며, 서비스가 안정적으로 성장하도록 전체적인 흐름을 관리하는 역할을 맡습니다. (※ 개발 업무를 직접 수행하지 않으며, 개발팀과 협업을 통해 개선을 주도합니다.) ⸻ 주요 업무 • REINDEERS B2B 플랫폼의 운영 및 서비스 유지관리 • 상품, 주문, 물류(3PL), 통관, 정산 등 운영 프로세스 실행 및 관리 • 사용자(공급사·고객사) 중심의 운영 이슈 대응 및 개선 요청 관리 • 운영 효율화 및 신규 기능 제안을 위한 서비스 개선 기획 및 테스트 • AI 기반 자동화 기능(데이터 매칭, 견적 추천 등) 운영 및 모니터링 • 국가별 서비스 환경(태국·말레이시아·중국·한국) 유지 및 운영 품질 관리 • 운영 데이터 분석을 통한 서비스 개선 및 운영 인사이트 도출 • 개발·물류·영업 등 유관 부서와의 운영 협의 및 실행 관리 ⸻ 자격 요건 • 플랫폼 운영 또는 서비스 관리 경력 3~7년 내외 • e-Commerce, B2B, 무역, Fulfillment(3PL/WMS) 관련 서비스 운영 경험 • 플랫폼 운영 프로세스(주문·정산·물류·CS 등)에 대한 이해 • 데이터 기반 문제 해결 및 서비스 ...

팀과 기술의 리빌드 — 다시 일하는 법을 정비하다

팀과 기술의 리빌드 — 다시 일하는 법을 정비하다 요약: REINDEERS는 시스템을 다시 설계하기 전에 먼저 팀을 해체했다. 기존 인력 전원이 퇴사한 후, 기술 커트라인을 통과한 새로운 엔지니어들로 조직을 재구성했다. 이후 Drone 기반 CI/CD, Git 워크플로우, 테스트 자동화, AI 협업 체계까지 모든 기술 문화가 새롭게 정의되었다. 1. 리빌드의 시작 — 사람부터 바꿨다 2025년 4월 초, REINDEERS는 중대한 결정을 내렸다. 시스템을 새로 만드는 일보다 먼저, 사람을 바꾸기로 한 것이다. 플랫폼은 기술로 움직이지만, 운영의 일관성을 무너뜨리는 것은 언제나 사람이다. 결국 기존 직원들은 모두 퇴사했다. 이전 팀은 실험적이었지만, 운영 가능한 구조를 만들기엔 역부족이었다. 남은 것은 코드 일부와 배포 스크립트뿐이었다. 우리는 그 위에 새로운 문화를 세우기보다, 완전히 새 팀을 만드는 길을 선택했다. “사람을 남긴 게 아니라, 기준을 남겼다.” 2. 새 팀의 탄생 — 기술 커트라인부터 통과해야 했다 신규 채용의 기준은 단순했다. “ 운영 가능한 기술을 이해하는가 .” 단순히 코드를 작성할 줄 아는 개발자가 아니라, 시스템이 어떻게 동작하고 복제되며, 장애를 어떻게 복구해야 하는지를 아는 엔지니어만이 합류할 수 있었다. 기술 커트라인 (필수 항목) Nuxt 3 / Vue3 + SSR 구조 이해 Python / Node.js 기반 API 서버 설계 경험 Drone CI/CD 파이프라인 구축 및 유지 경험 Tencent Cloud CLI 활용 및...

레인디어스, Buybly로 동남아시아 산업자재 시장 혁신

B2B 오픈마켓 Buybly, 한국 기업의 글로벌 진출을 돕다 레인디어스, 머신러닝 기반의 산업자재 매칭 솔루션으로 경쟁력 강화 김명훈 레인디어스 대표 산업자재 시장의 복잡성과 유통장벽은 많은 기업들에게 큰 도전 과제가 되어왔다. 특히 동남아시아 시장 진출을 원하는 한국의 산업자재 제조사들은 현지의 불투명한 거래 환경과 물류 문제로 어려움을 겪어왔다. 이러한 상황에서 레인디어스의 Buybly 플랫폼은 새로운 기회를 제시하고 있다. Buybly는 B2B 오픈마켓으로, 한국 기업들이 손쉽게 동남아시아 시장에 진출할 수 있도록 지원하며, 유통의 복잡성을 해결하는 혁신적인 솔루션으로 주목받고 있다. 이러한 변화의 중심에는 레인디어스 대표가 있다. 그는 지난 9년간 태국에서의 경험을 바탕으로 고객의 pain point를 해결하기 위해 Buybly를 개발했다. 이번 인터뷰를 통해 그의 비전과 경영 철학, 그리고 Buybly가 어떻게 산업자재 시장을 변화시키고 있는지에 대해 깊이 있는 이야기를 나누게 되었다. 김명훈 레인디어스 대표 -.소개  레인디어스는 국내 산업자재 제조사들이 동남아시아 시장에 쉽게 진출할 수 있도록 돕는 B2B 오픈마켓인 Buybly를 운영하고 있다. 해외 시장 진출에서 가장 큰 장애물인 유통, 물류, 무역의 장벽을 해결해주는 것이 이 플랫폼의 핵심이다. Buybly는 단순한 거래 플랫폼이 아니라, 산업자재 구매와 공급 과정을 간소화하고 최적화하는 One-Stop 솔루션으로 자리 잡았다. 레인디어스의 서비스는 Buybly와 Enterprise Solution(ERP, POP, WMS)으로 구성되어 있다. 이 솔루션은 동남아시아 현지의 고객사와 공급사에 맞춤형으로 제공되며, 산업현장의 선진화를 이끌어낸다. 기업 운영과 생산 관리, 재고 관리를 전산화해 이익을 극대화하는 데 기여하고 있다. Buybly는 산업현장에서 획득한 Raw data를 활용해 인공지능 분석을 통해 발주 주기와 재고에 따른 최적의 산업자재 및 공급사 매칭 기능을 제공한다. 이로...