외부 데이터 크롤링과 다국어 처리 자동화 요약: 본 기록은 외부 기관의 데이터를 API 없이 직접 수집하기 위해 Playwright 기반 크롤링 시스템을 구축한 과정을 다룬다. AI 에이전트가 사람이 탐색하듯 사이트 구조를 인식하고 데이터를 자동 추출하며, Translator-Agent가 실시간 다국어 변환을 수행하는 통합 구조를 구현하였다. 크롤링, 번역, 검증, 저장의 전 과정을 자동화하여 글로벌 규제·표준 데이터를 통합했다. 1. 배경 — 외부 연동 대신 크롤링 선택의 이유 REINDEERS 플랫폼은 각국의 표준, 인증, 관세 데이터를 기반으로 상품 정보를 구조화해야 했다. 그러나 각 기관의 공개 API는 존재하지 않거나 접근이 제한적이었다. 태국 TISI, 한국 UNIPASS, 중국 GB표준, 말레이시아 SIRIM 등은 모두 웹 기반 HTML 구조만 제공했다. 이에 따라 API 연동 대신 **Playwright를 이용한 사람 모방형 크롤링 구조**를 도입했다. 크롤링 시스템은 단순 HTML 파싱이 아니라, 브라우저를 실제 구동하여 클릭, 스크롤, 입력, 다운로드까지 자동화하는 형태로 설계되었다. AI가 사용자처럼 행동하며 데이터를 수집하는 방식이었다. 2. 크롤링 구조 설계 크롤러는 국가별로 독립적인 설정을 가진다. 각 크롤러는 Playwright의 Headless 모드로 실행되며, Cloud Function에서 주기적으로 호출된다. 수집 주기는 데이터의 성격에 따라 24시간~168시간 단위로 다르다. from playwright.sync_api import sync_playwright def crawl_tisi(): with sync_playwrig...