Skip to main content

외부 데이터 크롤링과 다국어 처리 자동화

외부 데이터 크롤링과 다국어 처리 자동화

요약:
본 기록은 외부 기관의 데이터를 API 없이 직접 수집하기 위해 Playwright 기반 크롤링 시스템을 구축한 과정을 다룬다. AI 에이전트가 사람이 탐색하듯 사이트 구조를 인식하고 데이터를 자동 추출하며, Translator-Agent가 실시간 다국어 변환을 수행하는 통합 구조를 구현하였다. 크롤링, 번역, 검증, 저장의 전 과정을 자동화하여 글로벌 규제·표준 데이터를 통합했다.

1. 배경 — 외부 연동 대신 크롤링 선택의 이유

REINDEERS 플랫폼은 각국의 표준, 인증, 관세 데이터를 기반으로 상품 정보를 구조화해야 했다. 그러나 각 기관의 공개 API는 존재하지 않거나 접근이 제한적이었다. 태국 TISI, 한국 UNIPASS, 중국 GB표준, 말레이시아 SIRIM 등은 모두 웹 기반 HTML 구조만 제공했다. 이에 따라 API 연동 대신 **Playwright를 이용한 사람 모방형 크롤링 구조**를 도입했다.

크롤링 시스템은 단순 HTML 파싱이 아니라, 브라우저를 실제 구동하여 클릭, 스크롤, 입력, 다운로드까지 자동화하는 형태로 설계되었다. AI가 사용자처럼 행동하며 데이터를 수집하는 방식이었다.

2. 크롤링 구조 설계

크롤러는 국가별로 독립적인 설정을 가진다. 각 크롤러는 Playwright의 Headless 모드로 실행되며, Cloud Function에서 주기적으로 호출된다. 수집 주기는 데이터의 성격에 따라 24시간~168시간 단위로 다르다.

from playwright.sync_api import sync_playwright

def crawl_tisi():
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=True)
        page = browser.new_page()
        page.goto("https://www.tisi.go.th/website/standardlist/comp_thai/th")
        page.wait_for_selector("table")
        rows = page.query_selector_all("table tr")
        for r in rows[1:]:
            cols = r.query_selector_all("td")
            data = {
                "standard_no": cols[0].inner_text(),
                "description": cols[1].inner_text(),
                "category": cols[2].inner_text()
            }
            publish("crawl.result", {"source": "TISI", "data": data})
        browser.close()

크롤링 데이터는 MQ를 통해 Translator-Agent로 전달되고, 번역 후 DB에 저장된다. AI 에이전트 간의 순서는 “Crawler → Translator → Classifier → DB Sync” 로 고정되어 있다.

3. 다국어 처리 및 자동 변환

Translator-Agent는 크롤러가 발행한 이벤트를 수신하면 자동으로 언어를 감지하고 다국어로 변환한다. 모든 데이터는 영어(en), 한국어(ko), 태국어(th), 중국어(zh-CN), 말레이어(ms) 버전으로 저장된다. 번역 품질이 기준 이하일 경우 자동으로 재번역을 요청한다.

if detect_lang(text) != "en":
    trans = deepseek.translate(text, target="en")
    trans_refined = chatgpt.refine(trans, context="technical standard")
    db.save_translation(item_id, "en", trans_refined)

Translator-Agent는 특히 기술 용어와 단위(예: “ψ”, “ISO”, “IEC”)의 오역을 방지하기 위해 내부 Glossary를 참조했다. Glossary는 AI가 자동 업데이트하며, 3,000개 이상의 기술 용어를 관리한다.

4. 크롤링 안정성 확보 및 오류 복구

Playwright 기반 크롤링은 네트워크 환경이나 DOM 변경에 취약했다. 하루 1,000회 이상 실행되는 크롤러에서 평균 7~8%의 실패율이 보고되었다. 이를 줄이기 위해 AI Ops-Agent가 HTML 구조를 학습하고 자동으로 셀렉터를 재설정하도록 했다.

if page.query_selector("table") is None:
    selector = ai_agent.suggest_selector(url, html_snapshot)
    page.wait_for_selector(selector)

AI는 이전 실패 로그를 바탕으로 새로운 셀렉터를 제안한다. 이 방식으로 실패율은 8.1% → 1.4%로 감소했다. 또한 MQ DelayQueue를 이용해 재시도 간격을 5분으로 설정하여 크롤링이 병목되지 않도록 했다.

5. 데이터 정제 및 중복 제거

크롤링 데이터는 동일 표준이 여러 언어 페이지에서 중복 수집될 수 있다. Translator-Agent는 각 데이터의 MD5 해시를 계산해 중복을 검증한다. 중복 항목은 Redis 캐시에 24시간 저장되어, 재수집 시 즉시 스킵된다.

key = f"hash:{hashlib.md5(content.encode()).hexdigest()}"
if redis.exists(key):
    publish("crawl.skipped", {"url": url})
else:
    redis.set(key, 1, ex=86400)
    save_data(content)

이 로직으로 일일 데이터 중복률은 12% → 0.7%로 감소했다. 저장된 데이터는 국가별로 분류되어 MySQL과 Redis에 병렬로 저장되며, Redis TTL은 48시간로 설정된다.

6. AI 품질 평가 및 재처리 루프

Translator-Agent는 번역 품질을 BLEU 점수로 평가하고, 기준(0.75) 이하일 경우 재번역 요청 이벤트를 발행한다. Ops-Agent는 모든 번역 결과를 요약해 품질 리포트를 Telegram으로 전송한다. 품질 데이터는 주간 단위로 학습되어 Translator-Agent의 다음 번역에 반영된다.

📊 *Crawler & Translator Report*
Source: TISI
Entries: 1,284
Valid: 1,271
Duplicates: 9
Avg BLEU: 0.82
Retries: 4
Processing Time: 17m 42s

보고서에는 크롤링 성능, 번역 정확도, 중복률, 평균 처리 시간 등이 포함된다. 관리자는 단순히 Telegram 메시지를 검토해 전체 수집 상태를 확인할 수 있다.

7. 다국어 인덱싱 및 검색 최적화

번역된 데이터는 Redis Search 인덱스로 자동 등록된다. 검색어는 사용자 언어에 따라 자동 변환되어 일관된 결과를 제공한다. 예를 들어 “전선 규격”을 검색하면 태국어 표준 “สายไฟฟ้าแรงดันต่ำ”도 동일 결과로 노출된다.

FT.CREATE idx_standards 
ON HASH 
PREFIX 1 "std:" 
SCHEMA name TEXT WEIGHT 2.0 description TEXT WEIGHT 1.0 lang TAG SORTABLE

검색 적중률은 언어별 평균 96% 이상이며, 크롤링된 데이터는 실시간으로 인덱스에 반영된다.

8. 결과 및 현재 상태

9월 기준, AI 크롤링 시스템은 TISI, UNIPASS, CN Standard, SIRIM 등 12개 기관 데이터를 자동 수집 중이다. 일일 평균 수집 건수는 2만 1천 건, 번역 4만 5천 문장 이상이며, 전체 프로세스의 98%는 AI 자동화로 수행된다.

  • 평균 크롤링 성공률 98.6%
  • 번역 품질 BLEU 0.82
  • 중복 제거 정확도 99.3%
  • MQ 처리량 2,400 msg/sec
  • 전체 파이프라인 지연 380ms

사람은 단 한 번도 웹사이트를 직접 열지 않는다. AI는 사용자의 탐색 패턴을 모방하여 HTML 구조를 파악하고 데이터를 수집한다. REINDEERS는 이제 각국의 공공 데이터를 자체적으로 통합·번역·정제하는 완전한 자율 시스템을 보유하게 되었다.

Comments

Popular posts from this blog

레인디어스, Buybly로 동남아시아 산업자재 시장 혁신

B2B 오픈마켓 Buybly, 한국 기업의 글로벌 진출을 돕다 레인디어스, 머신러닝 기반의 산업자재 매칭 솔루션으로 경쟁력 강화 김명훈 레인디어스 대표 산업자재 시장의 복잡성과 유통장벽은 많은 기업들에게 큰 도전 과제가 되어왔다. 특히 동남아시아 시장 진출을 원하는 한국의 산업자재 제조사들은 현지의 불투명한 거래 환경과 물류 문제로 어려움을 겪어왔다. 이러한 상황에서 레인디어스의 Buybly 플랫폼은 새로운 기회를 제시하고 있다. Buybly는 B2B 오픈마켓으로, 한국 기업들이 손쉽게 동남아시아 시장에 진출할 수 있도록 지원하며, 유통의 복잡성을 해결하는 혁신적인 솔루션으로 주목받고 있다. 이러한 변화의 중심에는 레인디어스 대표가 있다. 그는 지난 9년간 태국에서의 경험을 바탕으로 고객의 pain point를 해결하기 위해 Buybly를 개발했다. 이번 인터뷰를 통해 그의 비전과 경영 철학, 그리고 Buybly가 어떻게 산업자재 시장을 변화시키고 있는지에 대해 깊이 있는 이야기를 나누게 되었다. 김명훈 레인디어스 대표 -.소개  레인디어스는 국내 산업자재 제조사들이 동남아시아 시장에 쉽게 진출할 수 있도록 돕는 B2B 오픈마켓인 Buybly를 운영하고 있다. 해외 시장 진출에서 가장 큰 장애물인 유통, 물류, 무역의 장벽을 해결해주는 것이 이 플랫폼의 핵심이다. Buybly는 단순한 거래 플랫폼이 아니라, 산업자재 구매와 공급 과정을 간소화하고 최적화하는 One-Stop 솔루션으로 자리 잡았다. 레인디어스의 서비스는 Buybly와 Enterprise Solution(ERP, POP, WMS)으로 구성되어 있다. 이 솔루션은 동남아시아 현지의 고객사와 공급사에 맞춤형으로 제공되며, 산업현장의 선진화를 이끌어낸다. 기업 운영과 생산 관리, 재고 관리를 전산화해 이익을 극대화하는 데 기여하고 있다. Buybly는 산업현장에서 획득한 Raw data를 활용해 인공지능 분석을 통해 발주 주기와 재고에 따른 최적의 산업자재 및 공급사 매칭 기능을 제공한다. 이로...

JD 플랫폼 매니저 (Platform Manager )

🇰🇷 플랫폼 매니저 (운영 / 글로벌 B2B & AI 기반 자동화 플랫폼) 회사명: (주)레인디어스 | Reindeers Co., Ltd. 근무지: 서울 / 방콕 (Hybrid 가능) 고용형태: 정규직 (계약-전환형 가능) ⸻ 회사 소개 레인디어스는 산업자재 및 무역 중심의 글로벌 B2B 플랫폼을 운영하는 기술 기반 기업입니다. 한국, 태국, 말레이시아, 중국 등 주요 아시아 시장에서 **견적–발주–물류(3PL)–통관–정산–재고관리(WMS)**를 통합 관리하는 시스템을 제공하며, AI 기반 자동화와 데이터 인사이트로 업무 효율과 무역 생산성을 혁신하고 있습니다. 레인디어스는 운영 중심의 플랫폼 관리 전문가를 찾습니다. 본 포지션은 플랫폼의 운영·유지·관리·발전·확장을 담당하며, 서비스가 안정적으로 성장하도록 전체적인 흐름을 관리하는 역할을 맡습니다. (※ 개발 업무를 직접 수행하지 않으며, 개발팀과 협업을 통해 개선을 주도합니다.) ⸻ 주요 업무 • REINDEERS B2B 플랫폼의 운영 및 서비스 유지관리 • 상품, 주문, 물류(3PL), 통관, 정산 등 운영 프로세스 실행 및 관리 • 사용자(공급사·고객사) 중심의 운영 이슈 대응 및 개선 요청 관리 • 운영 효율화 및 신규 기능 제안을 위한 서비스 개선 기획 및 테스트 • AI 기반 자동화 기능(데이터 매칭, 견적 추천 등) 운영 및 모니터링 • 국가별 서비스 환경(태국·말레이시아·중국·한국) 유지 및 운영 품질 관리 • 운영 데이터 분석을 통한 서비스 개선 및 운영 인사이트 도출 • 개발·물류·영업 등 유관 부서와의 운영 협의 및 실행 관리 ⸻ 자격 요건 • 플랫폼 운영 또는 서비스 관리 경력 3~7년 내외 • e-Commerce, B2B, 무역, Fulfillment(3PL/WMS) 관련 서비스 운영 경험 • 플랫폼 운영 프로세스(주문·정산·물류·CS 등)에 대한 이해 • 데이터 기반 문제 해결 및 서비스 ...

레인디어스, 중기부 ‘혁신 성장 벤처기업’ 인증 획득

  서울 서초구--( 뉴스와이어 )--국제무역 및 이커머스 전문기업 레인디어스가 중소벤처기업부로부터 혁신성장유형 벤처기업 인증을 획득했다고 10일 밝혔다. 레인디어스 기업 로고 혁신성장유형 벤처기업은 기술 혁신성과 사업 성장성을 모두 충족하는 중소기업을 인증하는 제도다. 기업의 기술력과 차별성, 시장성, 비즈니스 모델 등 까다로운 심사 항목을 거쳐 혁신적인 기술력 및 성장 잠재력을 가진 유망중소기업에게 주어진다. 레인디어스는 태국과 말레이시아를 중심으로 산업자재 무역경험을 축적해온 기업으로, B2B 국제무역을 전문으로 하는 오픈마켓 웹 서비스 ‘바이블리’를 개발하고 있다. 레인디어스는 바이블리를 통해 수출을 원하는 제조 및 유통기업에 FDA/TISI 를 비롯한 국가별 제품인증, 해운과 통관, 풀필먼트 등 산업자재 국제유통에 관련된 모든 서비스를 원스톱 솔루션으로 제공할 계획이다. 레인디어스 김명훈 대표이사는 “국제무역은 복잡한 사업구조와 국경이라는 장벽으로 인해 IT 기술의 접목이 더딘 분야”라고 진단하며 “이번 벤처기업 인증으로 사업성과 혁신성이 증명된 만큼 서비스 개발에 박차를 가할 것”이라고 포부를 밝혔다. 레인디어스 소개 레인디어스는 서울 서초구에 소재한 국제무역 및 이커머스 전문기업이다. 주요 거래국은 태국을 비롯한 동남아 섹터며, 산업자재와 F&B를 중심으로 무역업에 종사해왔다. 이제 다년간 축적한 B2B 무역에 대한 인사이트를 바탕으로 2023년부터 동남아와 한국 간의 무역 거래를 온라인에서 가능하게 하는 B2B 오픈마켓 웹 서비스 ‘바이블리’를 개발하고 있다. 레인디어스는 2025년까지 바이블리를 통해 한국, 태국, 말레이시아의 산업자재 국제교역을 온라인으로 가능하게 하는 것을 목표로 하고 있다. 웹사이트:  https://www.reindeers.com/ https://www.newswire.co.kr/newsRead.php?no=993117