AI 협업 환경 구축과 코드 자동화 시스템

요약:
본 기록은 REINDEERS 개발 환경에 AI를 직접 결합한 구조를 정립한 과정을 다룬다. Cursor, Claude Code, 내부 AI Agent를 중심으로 코드 작성·리뷰·빌드·배포까지 자동화하였으며, 개발자는 AI와 병렬로 협업하며 시스템을 조정하는 역할만 수행했다. 이 과정에서 AI가 코드 품질을 스스로 진단하고 수정하도록 설계한 기술적 배경과 구현 과정을 기술한다.

1. AI 협업 환경 도입 배경

8월 초, 전체 개발 속도는 아키텍처 안정화와 함께 급격히 느려졌다. 다국어 코드베이스, 서비스 간 인터페이스 복잡도, 릴리즈 간 충돌 등으로 개발자가 직접 관리해야 할 영역이 지나치게 많았다. 단순 반복적인 테스트·리뷰·빌드 작업을 사람 대신 AI에게 맡기기로 했다.

목표는 다음과 같았다.

AI가 코드 문맥을 이해하고 변경 사항을 요약·리뷰
CI/CD 파이프라인과 직접 연동하여 코드 품질 평가
Prompt Repository를 통한 코드 수정 자동화
Telegram을 통한 빌드/배포 명령 및 상태 보고

2. 환경 구성 — Cursor & Claude Code 기반 개발 체계

모든 개발 작업은 Cursor 에디터를 기본으로 통합했다. Cursor는 프로젝트의 디렉토리 구조와 문맥을 인식하여 Claude Code API와 연결된다. 개발자는 명령을 직접 내리지 않고, “의도(Prompt)”만 작성한다. 예를 들어 “상품 등록 API의 중복 검증 로직 최적화”라고 명시하면, Claude Code가 Git 브랜치를 생성하고 수정된 diff를 자동으로 커밋한다.

# Example of AI-generated commit
feat(product): optimize duplicate validation logic

- added Redis check before DB insert
- improved exception message consistency
- updated integration tests

수정된 코드는 Drone CI가 자동으로 빌드하고, 테스트 결과를 Claude Code에 다시 전달한다. Claude는 테스트 로그를 분석해 실패 원인을 요약하고 제안 수정안을 생성한다. 성공률이 95% 이상일 경우만 main 브랜치로 병합된다.

3. Prompt Repository와 자동 리뷰 시스템

AI 협업의 핵심은 일관된 지시 체계였다. 우리는 “Prompt Repository”를 Git 내부에 별도로 구성했다. 각 기능 단위로 AI가 참조할 프롬프트 템플릿을 정의했다. 예를 들어 prompts/api_review.md에는 코드 리뷰 기준이 다음과 같이 명시되었다.

### API Review Rules
1. 모든 API는 3단계 검증 (입력→검증→응답)을 따라야 함
2. 로깅은 Cloud Function 호출 직전 최소 1회 기록
3. 예외는 200 OK 이외의 모든 응답 코드에서 명확한 메시지 반환
4. 함수당 최대 길이 80라인 이하

Claude Code는 코드 변경이 감지될 때마다 이 문서를 읽고 자동 리뷰를 수행한다. 오류나 규칙 위반이 감지되면 MQ를 통해 “review.failed” 이벤트를 발행한다. Cloud Function은 이 이벤트를 받아 Telegram 알림을 전송한다.

📋 Code Review Failed
File: api/product/create.py
Line: 42
Issue: Missing validation on product_name field
Suggested fix: add regex check before DB insert

개발자는 Telegram에서 `/approve` 명령으로 AI의 제안을 승인하거나 `/reject`로 무시할 수 있다. 승인된 제안은 자동으로 브랜치에 반영되어 재테스트가 수행된다.

4. AI 빌드 및 배포 자동화

Drone CI와 Claude Code는 서로 독립적으로 작동하지만, AI Ops-Agent가 이 둘을 연결했다. Ops-Agent는 빌드가 성공하면 Claude에게 로그를 전달하고, 실패 시 Claude가 자동으로 재시도할 수 있도록 Prompt Repository에서 “fix pipeline” 명령을 실행한다.

if build.status == "failed":
    prompt = prompts.get("fix_pipeline")
    suggestion = claude.analyze(build.logs, prompt)
    if "retry" in suggestion:
        publish("ci.retry", {"build_id": build.id})

빌드 로그 분석 결과, 테스트 실패의 62%는 의존성 충돌이었다. Claude는 requirements.txt를 자동으로 업데이트하고 재빌드하도록 설정되었다. 모든 과정은 Telegram에서 실시간으로 확인 가능했다.

5. 코드 품질 점수화 및 AI 학습 피드백

8월 중순 이후 AI가 생성한 코드가 사람보다 빠르지만, 품질 일관성 문제는 남아 있었다. 이를 해결하기 위해 “Code Quality Scoring” 시스템을 도입했다. Claude는 모든 커밋에 대해 가독성, 일관성, 테스트 커버리지, 예외 처리 항목을 점수화한다. 80점 미만 커밋은 Drone이 자동으로 main 병합을 차단했다.

{
  "commit": "5f3a2b",
  "readability": 0.91,
  "consistency": 0.86,
  "coverage": 0.73,
  "exception_handling": 0.9,
  "score": 85.0
}

Claude는 점수가 낮은 부분을 학습 데이터로 반영하여 이후 수정안 품질을 향상시켰다. 평균 코드 품질 점수는 초기 78점 → 89점으로 향상되었다.

6. AI와 개발자의 협업 방식

이 시점부터 사람은 ‘코드를 작성하는 주체’가 아니라 ‘의도를 전달하는 관리자’로 역할이 바뀌었다. 개발자는 하루 업무 시작 시 “오늘의 기능 계획”을 입력하면, AI는 자동으로 하위 태스크를 생성해 Git 이슈를 등록했다. AI가 생성한 코드 중 92%는 수동 수정 없이 배포되었다. 나머지 8%는 에러 핸들링이나 국가별 특수 규칙(예: 언어 구문 차이)에서 조정이 필요했다.

AI는 변경사항을 요약해 다음과 같이 보고했다.

📘 *Daily Summary*
- Added new endpoint: /v1/order/confirm
- Updated Redis TTL policy to 12h
- Fixed concurrency bug in cache invalidation
- All tests passed (74/74)

7. 보안 및 접근 제어

AI가 Git push 권한을 갖는 것은 위험 요소였다. 실수로 중요 설정 파일을 수정하거나, 외부 API 키를 노출할 가능성이 있었다. 이를 방지하기 위해 AI 계정의 권한을 “Draft Commit”으로 제한했다. 모든 병합은 사람이 Telegram `/merge` 명령으로 승인해야만 진행된다.

보안 로그는 별도의 Cloud Function에서 감시된다. 예기치 않은 diff가 감지되면 Ops-Agent가 즉시 병합을 차단하고 Slack이 아닌 Telegram으로만 알림을 보냈다. 이 방식은 중국·태국 등지의 외부 네트워크 환경에서도 안정적으로 작동했다.

8. 결론 및 현재 상태

AI 협업 환경이 완전히 정착한 이후, 코드 작성 속도는 기존 대비 2.4배, 리뷰 속도는 4배 향상되었다. 평균 커밋당 에러율은 7.2% → 1.3%로 감소했다. 개발자는 설계와 결정에 집중할 수 있게 되었으며, AI는 일관된 규칙을 유지하며 지속적으로 코드 품질을 보정한다.

현재 전체 코드베이스의 68% 이상이 AI 자동 생성이며, 나머지는 특수 국가 로직·보안 모듈 등 사람이 직접 검증이 필요한 영역이다. REINDEERS의 개발 체계는 “AI가 주도하고 사람이 승인하는 구조”로 완전히 전환되었다.

Blog of Reindeers

Search This Blog