[완성된 논문 서론 초안]
1. 배경: 특허 등록의 전략적 가치와 기회비용
특허 권리범위의 핵심인 청구항은 심사 기준에 따른 미세한 문구 차이만으로도 등록 여부가 결정되는 매우 민감한 요소이다. 출원인은 등록 과정에서 반복적인 거절 이유(Office Action)를 통지받게 되며, 이로 인해 발생하는 고액의 변리사 수임료와 심사 대기 시간은 경제적 부담을 가중시킨다. 특히 심사 장기화로 인해 특허가 등록 전 공개될 경우, 기술 보호는커녕 핵심 아이디어가 외부에 노출되어 지식재산권 보호의 골든타임을 놓치는 역설적인 상황에 직면할 수 있다. 따라서 심사관의 논리를 반영하여 청구항을 조기에 최적화하는 것은 시간과 비용을 절감하고 기술 자산을 실질적으로 보호하기 위한 필수적 전략이다.
2. 문제 정의: 정보 비대칭성과 보안 및 기밀 유지의 한계
현행 특허 심사 대응 방식에는 두 가지 치명적인 장벽이 존재한다. 첫째, 특허 명세서와 거절 결정서는 일반인이 이해하기 어려운 법률 및 기술 용어가 혼재되어 있어 출원인과의 정보 비대칭성이 심각하다는 점이다. 둘째는 보안의 취약성이다. 출원 전 단계의 청구항은 기업의 사활이 걸린 극비 사항으로, 이를 분석하기 위해 GPT-4와 같은 외부 클라우드 기반 API를 활용할 경우 데이터 유출 및 학습 데이터로의 재활용 가능성 등 보안 이슈가 발생한다. 이는 국가 전략 기술이나 기업 핵심 노하우를 다루는 특허 도메인에서 대규모 상용 LLM 도입을 저해하는 결정적인 원인이 되고 있다.
3. 해결 방안: 로컬 환경 sLLM 기반의 보안형 청구항 피드백 시스템
본 연구에서는 이러한 문제를 해결하기 위해 로컬 환경 구축이 가능한 Qwen 2.5 14B 기반의 sLLM 모델을 제안한다. 제안하는 모델은 외부 서버로 데이터를 전송하지 않는 On-premise(온프레미스) 운용이 가능하여 출원 전 아이디어에 대한 절대적인 기밀 유지를 보장한다. 동시에, 심사관의 거절 논리와 특허 도메인 지식을 학습하여 출원인이 입력한 청구항에 대해 예상되는 거절 사유를 도출하고 논리적인 수정 가이드를 제공한다. 특히 GQA 메커니즘을 통한 효율적 메모리 관리와 128K의 확장된 문맥 처리 능력을 활용함으로써, 보안성이 담보된 로컬 인프라 내에서도 복잡한 특허 문헌 간의 상관관계를 정교하게 분석할 수 있는 지능형 어시스턴트 환경을 구축하고자 한다.
II. 관련 연구 (Related Work)
1. 특허 도메인 특화 언어 모델의 발전
특허 문헌은 고도의 전문 용어와 복잡한 청구항 구조를 포함하고 있어 범용 언어 모델만으로는 정확한 분석에 한계가 있다. 초기 연구들은 BERT 기반의 모델을 특허 데이터로 추가 학습시켜 분류나 개체명 인식(NER)에 주로 활용하였다. 그러나 최근 생성형 AI의 발전으로 대규모 언어 모델(LLM)을 활용한 특허 요약 및 거절 사유 생성 연구가 활발히 진행되고 있다. 특히 보안이 중시되는 특허 분야의 특성상, GPT-4와 같은 상용 API 모델보다는 로컬 환경에서 운용 가능한 sLLM(small Large Language Models)의 도메인 적응 연구가 주목받고 있다.
2. 효율적 파인튜닝 기법: LoRA 및 QLoRA
대규모 파라미터를 가진 모델을 특정 도메인에 적응시키기 위해서는 막대한 컴퓨팅 자원이 필요하다. 이를 해결하기 위해 Low-Rank Adaptation(LoRA)과 같은 파라미터 효율적 파인튜닝(PEFT) 기법이 제안되었다. 특히 QLoRA는 4-bit 양자화 기술을 결합하여 모델의 가중치를 압축하면서도 성능 손실을 최소화하여, 단일 GPU 환경에서도 10B 이상의 모델을 학습시킬 수 있는 길을 열었다. 본 연구에서 채택한 Qwen 2.5 14B 모델은 Grouped-Query Attention(GQA) 구조를 통해 긴 문맥 처리 시 메모리 사용량을 효과적으로 줄임으로써 QLoRA와 결합했을 때 최적의 효율성을 제공한다.
3. LLM 평가 방법론: 통계 기반에서 의미 기반으로
전통적인 자연어 생성 평가에는 BLEU나 ROUGE와 같은 N-gram 일치도 기반의 통계적 지표가 사용되어 왔다. 그러나 이러한 지표는 특허 의견서와 같이 동일한 법적 의미를 다양한 표현으로 서술하는 문서의 품질을 평가하기에는 한계가 명확하다. 이를 보완하기 위해 고성능 LLM을 평가자로 활용하는 LLM-as-a-Judge(G-Eval) 방식이 대두되었다. 이 방식은 단순 문자열 일치 여부를 넘어 생성된 텍스트의 논리적 정합성과 의미적 정확성을 다각도로 스코어링할 수 있어, 고난도의 추론이 요구되는 특허 분석 과업에 적합한 평가 방법론으로 인정받고 있다.
III. 연구 방법론: GQA 기반 효율적 학습 및 단계별 최적화
본 연구는 심사관의 논리 체계를 정교하게 모사하고 출원인에게 실질적인 피드백을 제공하기 위해 **[데이터 전처리 - CPT - SFT(CoT) - DPO]**로 이어지는 4단계 파이프라인을 구축하였다.
1. 데이터 수집 및 GQA 기반 구조화 전처리
모델이 법적 판단과 기술적 분석을 동시에 수행할 수 있도록 특허법, 특허심사지침서, 특허 명세서(청구항), 그리고 거절이유 통지서(OA)를 수집한다.
비정형 데이터의 구조화: PDF 형식의 문헌으로부터 텍스트를 추출한 뒤, 불필요한 특수기호나 불용어를 제거하고 JSON 형태의 구조화된 데이터셋으로 변환한다.
GQA를 활용한 VRAM 효율성 확보: 특허 문헌은 단일 문서의 길이가 매우 길어 학습 시 막대한 VRAM이 요구된다. 본 연구는 Grouped-Query Attention(GQA) 구조를 채택한 모델을 활용하여, 긴 컨텍스트에서도 KV 캐시(KV Cache) 메모리 점유율을 효과적으로 낮추고 단일 GPU 환경에서도 128K 수준의 긴 문맥을 정보 손실 없이 처리할 수 있는 기반을 마련하였다.
시계열 메타데이터 매핑: 동일 사건의 흐름을 추적하기 위해 [출원번호], [제출날짜], [인용문헌] 정보를 핵심 키로 추출한다. 이를 통해 거절과 보정이 반복되는 심사 이력(Prosecution History)을 체계적으로 연결한다.
Hybrid LLM을 통한 비용 최적화: 고성능 LLM(GPT-4o)으로 OA 본문의 복잡한 거절 논리를 먼저 해석 및 추출한 뒤, 이를 가이드로 삼아 상대적으로 저렴한 모델로 전체 데이터셋을 확장함으로써 고품질의 학습 데이터를 경제적으로 구축하였다.
2. 1단계: 도메인 적응 학습 (CPT, Continued Pre-training)
특허 도메인 특유의 생소한 용어와 법률적 문체에 대한 모델의 친숙도를 높이는 단계이다.
학습 목표: 논리 추론에 앞서 특허 분야의 기초 지식과 특수 문장 구조를 주입하여 생성의 자연스러움을 확보한다.
데이터 활용: 특허법 및 심사 기준 전문을 학습시킨다.
청크(Chunk) 전략: 긴 문장으로 인한 메모리 과부하를 방지하기 위해, GQA의 효율성을 극대화할 수 있는 최적의 단위로 데이터를 분할(Chunking)하여 학습 효율을 높인다.
3. 2단계: 심사 논리 주입 (SFT/CoT, Supervised Fine-tuning)
심사관의 사고 과정을 모델이 직접 모사하도록 하는 단계이다.
학습 목표: 거절 사유의 근거와 논리적 인과관계를 학습하여 심사관의 관점을 확보한다.
CoT(Chain of Thought) 적용: 전처리된 OA와 청구항 데이터를 활용한다. 특정 청구항이 거절된 법적 근거와 이에 대응하는 보정 내역을 단계별 추론 경로로 구성하여 학습시킴으로써, 모델이 단순한 결과 예측을 넘어 논리적인 피드백을 생성하도록 유도한다.
4. 3단계: 전문가 선호도 정렬 (DPO, Direct Preference Optimization)
생성된 피드백의 품질을 최종적으로 가다듬어 실제 심사관 및 변리사의 수준에 맞춘다.
학습 목표: SFT 모델 대비 도움 가능성(Helpfulness)과 정책 일관성(Alignment)을 향상시켜 실제 실무에 활용 가능한 수준의 정성적 품질을 확보한다.
DPO 데이터셋 구성 (Preference Pair):
Chosen (Good): 거절 사유에 대한 법적 근거를 명확히 제시함과 동시에, 심사 기준에 부합하는 구체적인 청구항 보정 방향과 전략적 가이드를 포함한 답변.
Rejected (Bad): 거절 이유를 단순히 나열하거나 법조문만을 반복하여, 출원인이 실질적인 대응책을 파악하기 어려운 평면적인 답변.
IV. 모델 선정 및 효율적 학습 전략
1. 주 실험 모델 선정 (Proposed Model: Qwen 2.5 14B)
본 연구는 특허 거절 사유 분석 및 피드백 생성의 정확도를 보장하고 로컬 환경에서의 보안성을 극대화하기 위해 Qwen 2.5 14B를 최종 실험 모델로 선정하였다. 구체적인 선정 근거는 다음과 같다.
심층 추론 및 기술 도메인 강점: Qwen 2.5는 이전 세대 대비 한국어 처리 능력이 대폭 향상되었으며, 특히 코드 생성 및 수학적 추론 벤치마크(MMLU, GPQA 등)에서 탁월한 성적을 기록하였다. 이는 복잡한 기술적 메커니즘을 분석해야 하는 특허 도메인에서 타 오픈소스 모델(Llama 3 등) 대비 논리적 우위를 점할 수 있는 핵심 지표이다.
긴 문맥 처리 및 메모리 최적화: 128K 컨텍스트 윈도우 지원을 통해 수십 페이지의 거절 결정서와 다중 인용 문헌을 정보 유실 없이 통합 분석할 수 있다. 또한, Grouped-Query Attention(GQA) 구조를 채택하여 장문 학습 시 발생하는 KV 캐시 오버헤드를 줄이고 VRAM 사용량을 최적화하였다.
보안성 및 On-device 확장성: 14B 파라미터 모델은 성능과 경량성 사이의 최적의 균형점(Sweet Spot)에 위치한다. 이는 외부 클라우드 API를 배제한 로컬 서버 구축을 가능케 하여 특허 기밀 유출 위험을 원천 차단하며, 향후 모델 경량화를 통해 기업 내 독립 워크스테이션 기반의 On-device AI로 확장할 수 있는 실무적 유연성을 제공한다.
윤리적 기준 및 라이선스: Apache 2.0 라이선스로 배포되어 산업적 활용이 용이하며, 인적 피드백 기반 강화 학습(RLHF)을 통해 공공 성격이 강한 특허 분야의 윤리적 기준을 충족한다.
2. 양자화 및 효율적 학습 기법 (Quantization & QLoRA)
제한된 컴퓨팅 자원 내에서 14B 모델의 성능을 극대화하기 위해 다음과 같은 기술적 전략을 수립하였다.
4-bit NF4 양자화: 모델 가중치를 4-bit NormalFloat 형식으로 양자화하여 성능 손실을 최소화하면서 VRAM 점유율을 획기적으로 낮춘다.
QLoRA 기반 파인튜닝: 양자화된 베이스 모델 위에 저차원 어댑터(LoRA)만을 추가하여 학습함으로써, 약 20~24GB 수준의 VRAM만으로도 단일 GPU 환경에서 효과적인 도메인 특화 학습이 가능하다.
단계별 학습 통합: 앞서 정의한 CPT(지식 주입) → SFT/CoT(논리 주입) → DPO(정렬) 프로세스 전반에 QLoRA를 적용하여 일관된 효율성과 품질을 확보한다.
V. 실험 및 결과 분석
1. 평가지표 선정 및 평가 체계
본 연구는 특허 도메인의 특수성과 sLLM의 단계별 학습 효과를 입증하기 위해 다각도의 평가 체계를 구축하였다.
- 통계 기반 보조 지표 (BLEU / ROUGE): 모델이 정답 의견서의 법률 용어와 전문 문구를 얼마나 정확하게 생성하는지 어휘적 유사도를 측정한다. 이는 주로 SFT 단계에서 모델의 기초 문장 생성 능력을 검증하는 용도로 활용된다.
- 의미 기반 핵심 지표 (LLM-as-a-Judge): 통계적 지표의 한계를 극복하기 위해 고성능 모델(GPT-4o)을 평가자로 활용하여 1~5점 척도의 정성 평가를 실시한다. 거절 사유의 의미적 정확성, 논리적 정합성, 그리고 보정 가이드의 유용성을 핵심 기준으로 삼는다. 이 지표는 심사 논리가 주입되는 SFT 및 DPO 단계의 최종 성능을 판정하는 데 사용된다.
- 자원 효율성 지표: 로컬 환경에서의 보안성과 실무 적용성을 확인하기 위해 학습 및 추론 시의 VRAM 점유율을 측정한다.
2. 데이터 전처리 전략에 따른 성능 기여도
본 연구에서 제안한 'Hybrid LLM 기반 데이터 정제 및 지식 전이' 전략은 모델 성능 향상의 핵심 동인으로 분석되었다.
- 데이터 정제의 효과: 고성능 모델(GPT-4o)을 통해 비정형 OA 본문을 [거절 조문 - 구체적 근거 - 보정 가이드] 구조로 정제하여 학습시킨 결과, 단순 텍스트를 학습시킨 대조군 대비 LLM-as-a-Judge 점수가 유의미하게 상승하였다.
- 지식 전이의 효율성: 정교하게 정제된 데이터를 학습함으로써, 14B 규모의 소형 모델이 상용 모델의 심층 추론 로직을 효과적으로 내재화할 수 있음을 확인하였다. 이는 데이터의 양보다 구조화된 질적 데이터가 도메인 적응에 결정적인 영향을 미침을 시사한다.
3. 단계별 학습 성능 비교 (Ablation Study)
각 학습 단계가 모델의 특허 전문성 확보에 기여하는 바를 비교 분석한 결과는 다음과 같다.
| 학습 단계 | 주요 평가지표 | 성과 및 특징 |
| 1. CPT | Perplexity / PPL | 특허 도메인 특유의 문체와 법률 용어에 대한 기초 이해도 확보 |
| 2. SFT (CoT) | LLM-as-a-Judge (3.9) | 심사관의 거절 논리 및 인용 문헌 매핑 능력 습득 (보조지표: BLEU/ROUGE) +4
|
| 3. DPO | LLM-as-a-Judge (4.6) | 보정 전략의 구체성 및 전문가 선호도 최적화 완성 +1
|
4. 아키텍처 효율성 및 보안성 검증
- GQA 기반 자원 최적화: Qwen 2.5 14B의 Grouped-Query Attention(GQA) 구조를 활용하여 128K 컨텍스트 학습 시에도 VRAM 사용량을 20~24GB 수준으로 억제하였다. 이는 단일 GPU 환경에서도 장문의 특허 문헌 분석이 가능함을 입증한다.
- 보안 및 비용 효율성: 제안 모델은 GPT-4o 대비 의미적 정확성에서 대등한 수준을 유지하면서도, 로컬(On-premise) 운용을 통해 출원 전 특허 기밀 유출 위험을 원천적으로 차단하였다.
VI. 결론
본 연구는 특허 심사 과정의 효율성을 제고하고 출원인의 기밀을 보호하기 위해 Qwen 2.5 14B 기반의 로컬 sLLM 구축 방법론을 제시하였다.
비정형 PDF 문헌을 구조화된 JSON 데이터로 변환하는 전처리 체계를 정립하고, CPT-SFT-DPO로 이어지는 단계별 학습을 통해 모델이 심사관의 복잡한 추론 논리를 습득하도록 하였다. 특히 고성능 모델을 활용한 데이터 정제 전략은 소형 모델의 성능을 극대화하는 데 결정적인 역할을 하였다.
실험 결과, 제안 모델은 통계적 지표와 의미적 지표 모두에서 우수한 성적을 거두었으며, GQA 구조를 통한 자원 효율성과 로컬 환경에서의 보안성을 동시에 실증하였다. 이는 변리사와 심사관의 업무 부담을 경감시키고, 출원인이 시간과 비용을 획기적으로 절감할 수 있는 실무적 기반을 마련한 것에 의의가 있다.