[Projects] OpenClaw Let's run - AI 노코드 해커톤

프로젝트 소개

Problem

AI 시대에 개발자가 AI를 도구로 어떻게 활용해야 효율적인 퍼포먼스를 낼 수 있는가?
이 질문에 대한 답을 찾기 위해 해커톤에 참가했습니다. 조건은 단 하나, 노트북 없이 오직 Claude Code(OpenClaw)만으로 개발하는 것이었습니다.
경마 예측 도메인을 선택한 이유는 간단합니다. 빠른 피드백 루프가 가능한 실전 문제이기 때문입니다. 30분마다 경주 결과가 나오고, 즉시 전략을 검증할 수 있습니다.
핵심은 경마가 아니라, AI에게 정확히 지시하고 결과물을 검증하는 개발 프로세스 자체였습니다.

Solution

AI와 협업해서 노코드로 데이터 파이프라인 + 전략 검증 프레임워크를 하루 만에 구축했습니다.
코드를 직접 타이핑하지 않고, AI에게 API 연동, PDF 파싱, 전략 설계를 지시하고 생성된 코드를 검증/수정하는 방식으로 진행했습니다.
TDD 기반 성능 게이트로 AI가 생성한 전략을 검증하고, 실전 결과를 피드백해서 30분 간격으로 전략을 피벗하는 사이클을 3번 돌렸습니다.

GITHUB

팀원 / 역할

1명 (개인 프로젝트)
역할: 문제 정의, 아키텍처 설계, AI 지시 및 코드 검증, 전략 판단
개발 도구: Claude Code (OpenClaw) — 코드 생성, 디버깅, 전략 후보 생성

기술스택

Language & Libraries

Testing & Architecture

Data Source

개발 과정

도전과제

AI로 노코드 데이터 파이프라인 구축

/raceHorseResult_2

pymupdf

serviceKey

unquote()

# pipeline.py — 수집 → 로드 → 백테스트
collect()      # API 호출 → work_dir/horses.json
load_data()    # work_dir에서 DataFrame 로드
run_backtest() # fixtures 경주 데이터 + 전략 → 시뮬레이션

# config.py — 이중 인코딩 방지
SERVICE_KEY_ENCODED = os.environ.get("KRA_SERVICE_KEY", "...")
SERVICE_KEY = unquote(SERVICE_KEY_ENCODED)  # 디코딩 후 사용

# PDF 출전표 파싱
import pymupdf

def parse_entry_pdf(pdf_path: str) -> list[dict]:
    doc = pymupdf.open(pdf_path)
    entries = []
    for page in doc:
        text = page.get_text()
        rows = extract_table_rows(text)
        entries.extend(rows)
    return entries

AI와의 TDD 페어 프로그래밍으로 전략 3번 피벗

v1 — EV만 믿다가 전멸:

v2 — 일단 생존부터:

v3 — 근본적 재설계:

# v1 — EV 기반 전략
# P(i) = (1 / odds_i) / Σ(1 / odds_j)
# EV = P(i) × odds_i → EV > 1.0이면 베팅

# v2 — 3단 구조
strategy = {
    "보전축": select_yeonseung(top_2, min_odds=1.3),  # 연승 — 생존용
    "보험":   select_yeonseung(top_3),                  # 연승 — 보험
    "공격":   select_danseung(ev_top_1),                # 단승 — 수익용
}

# v3 — 파워 스코어 기반 전략
def power_score(horse: dict) -> float:
    return (
        horse["win_rate"]      * 0.25 +  # 승률
        horse["place_rate"]    * 0.15 +  # 복승률
        horse["jockey_score"]  * 0.20 +  # 기수 능력
        horse["rating"]        * 0.10 +  # 공식 레이팅
        horse["speed_idx"]     * 0.10 +  # 속도지수
        horse["recent_form"]   * 0.10 +  # 최근 3경주 폼
        horse["condition"]     * 0.10    # 당일 컨디션
    )

# 최종 스코어 = 실력(50%) + 배당 내재확률(50%)
final = power_score(h) * 0.5 + implied_prob(h) * 0.5

AI가 생성한 전략을 어떻게 검증할 것인가 — 성능 게이트

pytest

# test_strategy_performance.py — 승격 테스트
def test_v1_gate_ev_selection():
    """v1 승격 기준: EV > 1.0 마필 선별 가능"""
    bets = EVStrategy().select_bets(seoul_5r, budget=3000)
    assert len(bets) > 0  # ✅

def test_v2_gate_hit_rate_improvement():
    """v2 승격 기준: 적중률 25% 이상"""
    r2 = backtest(HedgeStrategy(), ALL_RACES, 3000)
    assert r2.hit_rate >= 0.25  # ✅

def test_v3_gate_hit_rate():
    """v3 승격 기준: 적중률 50% + 수익률 양수"""
    result = backtest(PlaceOnlyStrategy(), ALL_RACES, 3000)
    assert result.hit_rate >= 0.5  # ✅
    assert result.roi > 0          # ✅

def test_strategy_evolution():
    """전략 진화를 숫자로 증명: v1 < v2 < v3"""
    r1 = backtest(EVStrategy(), ALL_RACES, 3000)
    r2 = backtest(HedgeStrategy(), ALL_RACES, 3000)
    r3 = backtest(PlaceOnlyStrategy(), ALL_RACES, 3000)
    assert r1.roi < r2.roi < r3.roi  # ✅

결과물

백테스트 비교 — 4경주 기준

-72.5%

적중 0/4

-45.0%

적중 2/4 (연승)

+12.5%

적중 4/4 (연승)

AI와의 피드백 루프를 3번 돌린 결과입니다.
v1(AI 첫 제안)은 기대값만 쫓다가 6레이스 연속 전멸. 원금의 72.5%가 증발했습니다.
v2(피드백 후 AI 재설계)는 연승 보전축으로 부분 회수에 성공했지만, 단승 적중률 0%로 여전히 마이너스였습니다.
v3(방향 전환 후 AI 구현)은 파워 스코어 기반으로 4경주 전체 적중 + 수익률 양수를 달성했습니다. AI가 만든 전략을 사람이 검증하고 방향을 결정하는 사이클이 유효했습니다.

프로젝트 구조

run_horse/
├── config.py           # API 키, 환경 설정
├── pipeline.py         # 수집 → 로드 → 백테스트 파이프라인
├── domain/
│   ├── models.py       # Horse, Race dataclass (도메인 모델)
│   └── strategies/     # v1(EV), v2(Hedge), v3(PlaceOnly) 전략
├── infra/
│   ├── kra_api.py      # 한국마사회 API 수집
│   └── pdf_parser.py   # PDF 출전표 파싱
├── tests/
│   ├── fixtures/       # 실전 경주 데이터 (백테스트용)
│   └── test_strategy_performance.py  # 62개 테스트
└── work_dir/           # 수집 데이터 캐시 (horses.json)

인사이트

배운점

AI에게 좋은 지시를 내리려면, 먼저 문제를 정확히 정의할 수 있어야 합니다
AI에게 "경마 예측 전략 만들어줘"라고 지시하면 교과서적 답변이 나옵니다. "배당 내재확률에서 EV > 1.0인 마필을 선별하되, 켈리 기준으로 베팅 비율을 산출하는 전략을 Strategy Pattern으로 구현해줘"라고 지시하면 바로 쓸 수 있는 코드가 나옵니다. 결국 AI의 출력 품질은 입력의 정밀도에 비례한다는 걸 체감했습니다.

노코드로 개발하더라도, 설계 역량이 결과물의 품질을 결정합니다
코드를 직접 타이핑하지 않았지만, Strategy Pattern, Domain/Infra 분리, 성능 게이트 같은 아키텍처 의사결정은 전부 사람이 했습니다. AI가 구현 속도를 올려줄수록 설계 역량의 차이가 결과물의 품질 차이로 직결된다는 걸 느꼈습니다.

AI와의 피드백 루프가 이터레이션 속도를 극적으로 올려줍니다
실전 결과 → AI 피드백 → 원인 분석 → 방향 결정 → AI 구현. 이 사이클을 30분 간격으로 3번 돌려서 전략을 전멸(v1)에서 수익(v3)까지 올렸습니다. AI 없이 같은 사이클을 돌리면 하루가 아니라 일주일이 필요했을 겁니다. AI는 "대신 개발해주는 것"이 아니라 "이터레이션 속도를 올려주는 도구"였습니다.

성능 게이트 기반 품질 관리
AI가 생성한 전략을 무조건 신뢰하지 않고, 백테스트 성능 게이트로 검증하는 구조를 설계했습니다. 기준을 점진적으로 높여가며 전략을 개선하는 사이클이, AI 생성 코드를 프로덕션에 반영할 때도 동일하게 적용될 수 있다는 걸 깨달았습니다.

아쉬운점

백테스트 데이터의 한계
4경주 분량의 실전 데이터로 검증한 결과라 통계적 유의성이 부족합니다. 최소 100경주 이상의 데이터로 백테스트해야 전략의 신뢰도를 확보할 수 있을 것 같습니다. 실전에서는 데이터 양이 모델의 신뢰도를 결정한다는 당연한 사실을 다시 체감했습니다.

AI 지시의 체계적 버전 관리 부재
전략은 v1 → v2 → v3으로 버전 관리했지만, AI에게 내린 지시(프롬프트) 자체는 체계적으로 기록하지 못했습니다. 어떤 지시가 좋은 코드를 만들었고, 어떤 지시가 잘못된 방향을 유도했는지 사후 분석이 어려웠습니다. 프롬프트를 코드처럼 버전 관리하고, 지시 → 결과물 → 검증 결과를 하나의 트레이스로 남겼다면, AI 협업 프로세스 자체를 반복 가능한 프레임워크로 만들 수 있었을 것 같습니다.

AI 생성 코드의 품질 검증 체계 미흡
AI가 생성한 코드를 리뷰하는 체계가 부족했습니다. 성능 게이트로 전략의 결과는 검증했지만, 코드 자체의 품질(엣지 케이스 처리, 에러 핸들링)은 충분히 검토하지 못했습니다. 테스트는 있었지만, AI가 만든 테스트의 커버리지를 검증하는 메타 테스트는 없었습니다. AI 생성 코드를 프로덕션에 반영하려면, 코드 리뷰 체계와 테스트 커버리지 검증이 필수라는 걸 느꼈습니다.