ChatGPT 사례 연구: 로펌이 계약서 검토를 자동화해 연간 2,000시간을 절감한 방법

연간 8,000건의 계약서라는 현실

서울 서초구에 위치한 법무법인 정안(가명)은 기업 자문 전문 중소 로펌이다. 변호사 15명, 사무직원 10명 규모로, 주로 중견기업의 거래 계약, 용역 계약, 비밀유지계약(NDA), 라이선스 계약을 다룬다. 2024년 기준 연간 처리하는 계약서는 약 8,000건이다.

8,000건이라는 숫자 자체가 문제의 핵심이었다. 계약서 1건을 검토하는 데 평균 45분이 걸렸다. 단순 NDA라면 20분, 복잡한 라이선스 계약이면 2시간 이상이 필요했다. 연간 총 검토 시간은 약 6,000시간. 변호사 3명이 풀타임으로 계약서만 검토하는 셈이었다.

문제는 시간만이 아니었다. 검토의 일관성도 과제였다. 같은 유형의 계약서를 변호사 A와 변호사 B가 다르게 판단하는 경우가 종종 있었다. 특히 주니어 변호사의 경우, 특정 리스크 조항을 놓치는 일이 연 평균 4~5회 보고되었다. 한 번은 손해배상 한도 조항의 누락을 뒤늦게 발견하여 클라이언트와의 관계가 긴장된 적도 있었다.

법무법인 정안의 대표 변호사 이승현(가명)은 2025년 초부터 AI 기반 계약서 검토 자동화를 검토하기 시작했다. 전용 법률 AI 솔루션의 가격은 연간 1억 원 이상이었고, 한국법에 최적화된 제품은 아직 성숙하지 않은 상태였다. 이승현은 ChatGPT의 Custom GPT를 활용한 내부 솔루션 개발을 결정했다.

이 글은 법무법인 정안이 Custom GPT로 계약서 검토 워크플로우를 구축하고, 12개월간 운영하며 얻은 결과와 교훈을 기록한 사례 연구다.

Custom GPT 구축

로펌의 표준 입장 정리

Custom GPT를 만들기 전에 가장 먼저 한 일은 로펌의 “표준 입장(standard positions)“을 문서화하는 것이었다. 계약서 검토에서 표준 입장이란, 각 조항에 대해 로펌이 기본적으로 취하는 법적 견해를 말한다.

예를 들어, 손해배상 한도 조항에 대한 정안의 표준 입장은 “계약 금액의 100%를 초과하는 손해배상 한도는 클라이언트에게 불리하므로 수정을 권고한다”였다. 준거법 조항에 대해서는 “대한민국법이 아닌 준거법은 원칙적으로 수정 대상이며, 예외적으로 상대방의 본국법을 수용하는 경우 별도 고지한다”였다.

이 작업을 위해 시니어 변호사 3명이 일주일간 집중 작업을 수행했다. 계약 유형별(NDA, 용역, 매매, 라이선스)로 주요 조항 20~30개에 대한 표준 입장을 정리했다. 총 분량은 약 120페이지였다.

이 문서가 Custom GPT의 지식 기반(Knowledge)으로 업로드되었다.

Custom GPT 설정

ChatGPT Team 플랜을 구독하고, Custom GPT를 생성했다. 핵심 설정은 다음과 같았다.

이름: 정안 계약 검토 어시스턴트

Instructions(지시문): 약 3,000자 분량의 시스템 프롬프트를 작성했다. 핵심 내용은 다음과 같다.

“당신은 법무법인 정안의 계약서 검토 어시스턴트입니다. 업로드된 계약서를 분석하고, 로펌의 표준 입장에 비추어 리스크가 있는 조항을 식별합니다. 판단의 근거는 반드시 업로드된 표준 입장 문서에 기반해야 합니다. 법적 조언이 아닌 검토 보조 도구임을 명시합니다.”

“각 리스크 항목에 대해 다음을 보고합니다: (1) 해당 조항의 원문 인용, (2) 리스크 수준 (상/중/하), (3) 표준 입장과의 차이점, (4) 수정 권고안.”

“법적 판단의 최종 책임은 담당 변호사에게 있으며, 이 도구는 1차 스크리닝을 보조하는 역할입니다.”

Knowledge 파일: 표준 입장 문서 120페이지, 주요 법령 요약(상법, 민법 계약 관련 조항), 과거 검토에서 자주 발견된 리스크 패턴 목록

Actions: 별도의 외부 API 연동 없이, 파일 업로드와 텍스트 분석만 사용

초기 테스트

Custom GPT가 완성된 후, 과거에 검토가 완료된 계약서 50건으로 테스트를 진행했다. 각 계약서를 Custom GPT에 업로드하고, 생성된 검토 보고서를 실제 변호사의 검토 결과와 비교했다.

초기 결과는 다음과 같았다.

리스크 조항 식별률: 78% (변호사가 지적한 리스크 중 78%를 Custom GPT도 식별) 오탐률(false positive): 15% (Custom GPT가 리스크로 지적했으나 실제로는 문제없는 조항) 미탐률(false negative): 22% (변호사가 발견했으나 Custom GPT가 놓친 리스크)

78%라는 수치는 1차 스크리닝 도구로서는 의미 있는 성과였지만, 22%의 미탐률은 개선이 필요했다. 특히 미탐 항목을 분석해보니 두 가지 패턴이 있었다.

첫째, 조항의 부재를 감지하지 못하는 문제. “이 계약서에 분쟁 해결 조항이 빠져 있다”는 것은 존재하지 않는 것을 찾는 것이므로 어려운 작업이다.

둘째, 복합적 리스크 감지 부족. 개별 조항은 문제없어 보이지만 여러 조항이 결합되면 리스크가 되는 경우(예: 손해배상 한도가 낮은데 면책 조항이 넓은 경우)를 놓쳤다.

이 두 문제를 해결하기 위해 Instructions를 수정했다. “존재하지 않는 조항도 검토하세요. 표준 입장 문서의 ‘필수 포함 조항 목록’과 대조하여 누락된 조항을 보고하세요.”와 “조항 간 상호작용도 분석하세요. 특히 책임 제한, 면책, 손해배상 조항의 조합을 종합적으로 검토하세요.”를 추가했다.

수정 후 재테스트 결과, 식별률이 78%에서 87%로, 미탐률이 22%에서 13%로 개선되었다.

3단계 검토 워크플로우

워크플로우 설계

법무법인 정안은 다음과 같은 3단계 워크플로우를 확립했다.

1단계: Custom GPT 자동 스크리닝 (15분)

담당 직원이 계약서 파일을 Custom GPT에 업로드한다. Custom GPT가 검토 보고서를 생성한다. 보고서에는 리스크 조항 목록, 누락 조항 목록, 전체 리스크 등급(고/중/저)이 포함된다.

이 단계의 목적은 변호사가 검토에 들어가기 전에, 어디에 집중해야 하는지 미리 파악하는 것이다. 45분짜리 전체 검토가 아니라, AI가 표시한 항목을 중심으로 집중 검토할 수 있게 되었다.

2단계: 변호사 집중 검토 (15~30분)

변호사는 Custom GPT의 보고서를 참고하여, 표시된 리스크 항목을 하나씩 확인한다. AI의 판단이 맞는지 틀린지 검증하고, AI가 놓친 부분이 있는지 추가로 확인한다.

이 단계에서 핵심적인 변화는, 변호사의 역할이 “전체 문서를 처음부터 읽는 것”에서 “AI의 분석을 검증하고 보완하는 것”으로 바뀌었다는 점이다. 인지 부담이 크게 줄었다.

3단계: 시니어 변호사 최종 승인 (5분)

리스크 등급이 “고”인 계약서만 시니어 변호사의 최종 승인을 거친다. 중/저 등급은 2단계 담당 변호사의 판단으로 처리한다.

실제 사용 예시

가상의 용역 계약서를 예로 들어보자.

Custom GPT가 생성하는 검토 보고서의 형식은 다음과 같다.

계약서 검토 보고서 계약 유형: IT 시스템 개발 용역 계약 전체 리스크 등급: 중

리스크 항목

[상] 제12조 손해배상 - “을의 손해배상 책임은 계약 금액의 300%를 한도로 한다”
- 표준 입장: 계약 금액의 100%를 초과하는 한도는 수정 권고
- 권고: 100% 또는 직접 손해에 한정하는 조항으로 수정 협상
[중] 제8조 지식재산권 - “개발 과정에서 발생한 모든 지식재산권은 갑에게 귀속된다”
- 표준 입장: 을이 기존에 보유한 지식재산권은 제외 명시 필요
- 권고: “본 계약 이전에 을이 보유한 지식재산권은 제외한다” 단서 추가
[하] 제15조 준거법 - 준거법 및 관할 조항 존재, 대한민국법 적용으로 이상 없음

누락 조항

불가항력(Force Majeure) 조항 없음 - 추가 권고
분쟁 해결의 중재 옵션 없음 - 필요시 추가 검토

이 보고서를 받은 변호사는 리스크 [상] 항목부터 집중적으로 검토하고, 클라이언트에게 수정 권고안을 전달한다.

12개월 성과

법무법인 정안은 2025년 3월부터 이 워크플로우를 전사적으로 도입하고, 12개월간의 성과를 측정했다.

시간 절감

도입 전 평균 검토 시간: 건당 45분 도입 후 평균 검토 시간: 건당 15분 (1단계 AI 15분은 직원 시간이 아니므로 제외) 절감 비율: 약 67%

연간 기준으로 계산하면:

도입 전: 8,000건 x 45분 = 6,000시간
도입 후: 8,000건 x 15분 = 2,000시간
절감: 4,000시간 (변호사 기준 약 2명의 풀타임 업무량)

이 4,000시간이 다른 고부가가치 업무(신규 자문, 소송 대응, 클라이언트 미팅)로 재배치되었다.

리스크 플래그 정확도

12개월간의 누적 데이터를 분석한 결과:

리스크 식별률: 91% (초기 78%에서 지속적 개선) 오탐률: 8% (초기 15%에서 감소) 미탐률: 9% (초기 22%에서 감소)

개선의 주요 원인은 두 가지였다. 첫째, Instructions를 수차례 미세 조정한 것. 실사용 과정에서 발견된 패턴을 반영하여 프롬프트를 개선했다. 둘째, Knowledge 파일을 분기마다 업데이트한 것. 새로운 판례나 법령 변경 사항을 반영했다.

일관성 향상

도입 전에는 같은 유형의 계약서에 대해 변호사마다 다른 의견을 내는 경우가 연 40~50건 보고되었다. 도입 후에는 AI의 1차 스크리닝이 표준 입장을 기준으로 일관된 기준선을 제시하므로, 변호사 간 의견 차이가 연 10건 이내로 줄었다.

비용 분석

투입 비용:

ChatGPT Team 플랜: 월 $30 x 10명 x 12개월 = $3,600 (약 480만 원)
초기 구축 (표준 입장 문서화): 시니어 변호사 3명 x 1주 = 약 300만 원 상당의 기회비용
유지보수 (분기별 Knowledge 업데이트): 약 100만 원/년

총 연간 비용: 약 880만 원

절감된 시간의 가치:

변호사 시급 평균 약 15만 원 (시니어/주니어 평균)
절감 시간 4,000시간 x 15만 원 = 6억 원

ROI: 약 68배

이 ROI 수치는 절감된 시간이 모두 유료 업무로 전환되었다는 가정이므로 실제보다 과대평가되어 있다. 하지만 절감 시간의 30%만 유료 업무로 전환되었더라도 ROI는 20배를 넘는다.

잘 작동한 것

표준 입장 문서의 힘

Custom GPT의 성능은 Knowledge 파일의 품질에 직결되었다. 처음에 시간을 들여 표준 입장을 체계적으로 문서화한 것이 12개월 내내 효과를 발휘했다. 이 문서는 AI 도구를 위한 것이지만, 부수적으로 신입 변호사의 온보딩 자료로도 활용되었다.

변호사의 역할 변화

가장 큰 성과는 시간 절감보다 변호사의 역할 변화였다. “계약서를 처음부터 끝까지 읽는 작업”에서 “AI의 분석을 검증하고 전략적 판단을 내리는 작업”으로 전환된 것이다. 주니어 변호사들은 단순 반복 작업에서 벗어나 더 빨리 고급 업무를 경험할 수 있게 되었다.

점진적 도입

한 번에 모든 계약을 AI에 맡기지 않았다. 첫 달은 NDA만, 둘째 달은 용역 계약 추가, 셋째 달은 매매 계약까지 확대하는 방식으로 점진적으로 도입했다. 각 단계에서 정확도를 확인하고 Instructions를 조정한 후 다음 단계로 넘어갔다.

주의가 필요했던 것

기밀 유지

계약서에는 클라이언트의 기밀 정보가 포함되어 있다. ChatGPT Team 플랜은 대화 내용을 모델 학습에 사용하지 않는다고 명시되어 있지만, 로펌으로서는 추가적인 주의가 필요했다.

대응 방안으로 두 가지를 시행했다. 첫째, 계약서 업로드 전에 당사자 이름, 금액, 특정 가능한 정보를 마스킹하는 전처리 단계를 추가했다. 둘째, 특히 민감한 M&A 관련 계약은 AI 검토 대상에서 제외하고, 전통적 방식으로만 처리했다.

AI의 법적 한계

Custom GPT가 생성하는 검토 보고서는 “법적 조언”이 아니다. 이 구분을 명확히 하는 것이 중요했다. 보고서 하단에 “본 보고서는 AI 기반 1차 스크리닝 결과이며, 법적 효력이 없습니다. 최종 법적 판단은 담당 변호사의 검토를 거쳐야 합니다”라는 면책 문구를 포함시켰다.

클라이언트에게 AI 사용 사실을 고지할 것인지도 논의되었다. 정안은 결국 “AI 보조 도구를 검토 프로세스에 활용하고 있으며, 최종 검토는 변호사가 수행한다”는 내용을 자문 계약서에 포함시키기로 결정했다.

환각 문제

ChatGPT는 가끔 존재하지 않는 법률 조항이나 판례를 인용하는 경우가 있었다. 초기에 “민법 제548조의3”이라는 존재하지 않는 조문을 인용한 적이 있어, Instructions에 “구체적인 법률 조문 번호를 인용하지 말 것. 대신 ‘관련 법률에 따라’ 같은 일반적 표현을 사용할 것”이라는 지시를 추가했다.

법률 분야에서 AI의 환각은 다른 분야보다 위험하다. 존재하지 않는 판례를 근거로 법적 조언을 제공하면 심각한 결과를 초래할 수 있다. 이 문제를 완전히 해결할 수 없으므로, 변호사의 2차 검증을 생략할 수 없다는 것이 12개월간의 확고한 결론이었다.

복잡한 계약의 한계

단순한 NDA나 정형화된 용역 계약에서는 Custom GPT의 성능이 우수했지만, 복잡한 M&A 계약, 국제 합작투자 계약, 복합 금융 거래 계약에서는 성능이 크게 떨어졌다. 이러한 계약은 조항 간 상호 관계가 복잡하고, 계약 특유의 맥락이 중요하기 때문이다.

정안은 결국 계약서를 세 등급으로 분류하여 AI 적용 범위를 결정했다.

A등급(완전 AI 스크리닝 적용): NDA, 표준 용역 계약, 표준 매매 계약 - 전체의 약 65% B등급(부분 AI 스크리닝 적용): 비표준 조항이 포함된 계약 - 전체의 약 25% C등급(AI 비적용): M&A, 국제 계약, 금융 거래 - 전체의 약 10%

이 분류로 AI의 강점을 최대로 활용하면서, 한계가 문제되는 영역에서는 전통적 방식을 유지할 수 있었다.

교훈 정리

12개월의 운영에서 얻은 교훈을 정리한다.

첫째, AI 도구보다 지식 기반이 더 중요하다. Custom GPT의 성능은 Knowledge로 업로드된 표준 입장 문서의 품질에 90% 의존한다. 시스템 프롬프트를 아무리 정교하게 작성해도 지식 기반이 부실하면 좋은 결과를 얻을 수 없다.

둘째, “대체”가 아니라 “보조”다. AI가 변호사를 대체하는 것이 아니라, 변호사의 능력을 증폭시키는 것이다. 이 인식이 팀 내에 자리잡기까지 시간이 걸렸지만, 일단 자리잡고 나니 저항이 사라졌다.

셋째, 점진적 도입이 성공의 열쇠다. 한 번에 모든 계약에 적용하는 대신, 가장 단순하고 정형화된 유형부터 시작하여 범위를 넓혀간다. 각 단계에서 정확도를 측정하고 개선한 후 다음 단계로 넘어간다.

넷째, 기밀 유지 정책을 먼저 수립한다. 법률 분야는 기밀 정보가 핵심이다. AI 도구에 어떤 정보를 제공하고 어떤 정보는 제외할지, 명확한 정책 없이 시작하면 나중에 문제가 된다.

다섯째, 정기적 업데이트가 필수다. 법률은 변한다. 새로운 판례, 법령 개정, 규제 변화를 Knowledge 파일에 분기별로 반영하지 않으면 AI의 판단이 구식이 된다.

여섯째, 환각은 관리할 수 있지만 제거할 수 없다. 법률 분야에서 AI의 환각은 특히 위험하다. 구체적 조문이나 판례 인용을 제한하고, 변호사의 검증 단계를 절대 생략하지 않는 것이 12개월간의 변함없는 원칙이었다.

향후 계획

법무법인 정안은 향후 12개월간 세 가지 확장을 계획하고 있다.

첫째, 계약서 검토를 넘어 계약서 초안 작성 보조로 확대한다. 표준 계약서 템플릿을 기반으로, 클라이언트 요구사항을 입력하면 초안을 생성하는 워크플로우를 준비 중이다.

둘째, 영문 계약서로 범위를 확대한다. 현재는 한글 계약서만 대상이지만, 영문 계약서에 대한 1차 스크리닝도 도입할 예정이다. ChatGPT의 영어 성능이 한국어보다 우수하므로, 오히려 더 좋은 결과가 기대된다.

셋째, 검토 데이터의 축적과 분석을 강화한다. 12개월간 축적된 8,000건의 검토 데이터에서 패턴을 추출하여, 특정 산업이나 거래 유형에서 자주 발생하는 리스크를 사전에 경고하는 기능을 개발할 계획이다.

다른 도구 둘러보기

ChatGPT 사례 연구: 매출 0원 스타트업이 AI로 전체 콘텐츠 마케팅 엔진을 구축한 방법 사례 ChatGPT로 회의 준비하는 방법: 회의실에서 가장 준비된 사람이 되는 리서치 브리핑 방법 Claude Code로 API 엔드포인트 생성하는 방법: 스키마에서 테스트된 엔드포인트까지 몇 분 만에 방법 Claude로 엔터프라이즈 RAG 시스템 구축하는 방법: 직원 질문에 답하는 지식 기반 방법 Claude API로 콘텐츠 모더레이션 구축하는 방법: 확장 가능한 자동 안전 시스템 방법 Claude API 함수 호출 사용 방법: AI 에이전트 구축을 위한 Tool Use 완전 가이드 방법 ElevenLabs로 고객 서비스 IVR 구축하는 방법: 사람처럼 들리는 AI 음성 자동화 방법 ElevenLabs로 제품 데모 보이스오버 만드는 방법: SaaS 데모를 위한 전문 내레이션 방법 Gemini 멀티모달 프롬프팅 모범 사례: 이미지, 영상, 문서 분석으로 결과 얻기 모범사례 Gemini 사례 연구: 프로덕트 팀이 Deep Research로 200개 사용자 인터뷰를 3일 만에 종합한 방법 사례 Gemini 사례 연구: 부동산 회사가 Deep Research로 15개 도시 시장 분석을 수행한 방법 사례 Gemini로 코드 리뷰와 리팩토링하는 방법: AI 기반 코드 품질 개선 방법 Genspark Sparkpage 정리 모범 사례: 개인 지식 관리 시스템 구축 모범사례 Genspark으로 경쟁사 가격 분석하는 방법: AI 기반 가격 인텔리전스 방법 Grok 실시간 뉴스 분석 및 팩트체킹 모범 사례 모범사례 Grok 학술 연구 및 문헌 탐색 모범 사례: X/Twitter를 활용한 학술 인텔리전스 모범사례 Grok 콘텐츠 전략 모범 사례: 트렌딩 토픽을 정점 전에 파악하고 수요를 선점하는 콘텐츠 만들기 모범사례 Grok 사례 연구: DTC 뷰티 브랜드가 실시간 소셜 리스닝으로 제품 출시를 구한 이야기 사례 Grok 사례 연구: 제약회사가 신약 출시 중 환자 센티먼트를 추적해 FDA보다 48시간 먼저 안전 신호를 감지한 방법 사례 Grok 사례 연구: 헤지펀드가 X/Twitter 센티먼트를 대안 데이터로 활용해 연 5.9% 초과수익을 달성한 방법 사례