Skip to content
ML감자
Go back

Long Context LLM (1): Pre-training부터 Post-training까지 data 전략

Summary


Overview

최근 업무를 하면서 Long Context에서 LLM 성능을 높이는 방법에 대한 필요성을 느끼고 있다.

여러 문서를 입력으로 넣고 쿼리를 날렸을 때 정확한 답변을 받거나, 문서를 깔끔하게 요약해주는 등 방대한 양의 텍스트를 효율적으로 처리하는 능력이 점점 중요해지고 있다.

SCR-20250810-pezo

위 그림에서와 같이 Claude, Gemini, GPT와 같은 Closed LLM은 물론이고, Open source LLM에서도 마찬가지로 시퀀스 길이가 늘어날수록 성능 손실이 치명적으로 발생한다.

Qwen2.5-1M처럼 무려 100만 토큰이나 되는 컨텍스트 길이를 처리할 수 있는 모델들이 나오고 있지만, 이런 모델들도 특정 태스크에 맞춰 alignment tuning을 하려면 결국 고품질의 long context 데이터를 확보해야 한다는 과제가 남아있다.

물론 pre-training 단계에서 이미 256k 컨텍스트 길이로 학습되었기 때문에 fine-tuning 효과는 더 좋을 것이다.

그래서 오늘은 “A Comprehensive Survey on Long Context Language Modeling” 논문을 분석해보면서, Pre-training과 Post-training 각 단계에서 어떤 데이터 전략들이 사용되었는지 자세히 살펴보려고 한다.


A Comprehensive Survey on Long Context Language Modeling

논문링크

Abstract

Data Strategies

image-20250810105356508

image-20250810171038849


Pre-training

1. Data Filtering

2. Data Mixture

3. Data Synthesis


Post-training

1. Data Filtering

2. Data Synthesis


3. Training Data 예시

Training DataCharacteristicsStageLink
LongWanjuanBilingual, filtered from SlimPajama and WanjuanPre-trainingarxiv, github
Long-Data-CollectionsA wide variety of data sourcesPre-traininghuggingface
LongAttnLong-range dependency selected using attention patternsPost-trainingarxiv, github
LongAlignDiverse tasks and various sources, Self-InstructPost-trainingarxiv, github, huggingface
FILMInformation-Intensive, context length balance, multi-hop reasoningPost-trainingarxiv, github
PAM QAPosition-agnostic, multi-hop reasoningPost-trainingarxiv, github
LongAlpacaSelf-collected, instruction followingPost-trainingarxiv, github, huggingface
ChatQA2Synthesized from NarrativeQAPost-trainingarxiv, github, huggingface
LongMITMulti-hop, diverse, automaticPost-trainingarxiv, github, huggingface
LongWriter-6kLong-form generation, output lengths ranging from 2k to 32k wordPost-trainingarxiv, github, huggingface
Long RewardBilingual, preference optimizationPost-trainingarxiv, github
LOGOPreference optimizationPost-trainingarxiv, github
LongDPOLong-form Generation, preference optimization, step-levelPost-trainingarxiv, github

Share this post on:

Previous Post
vLLM이란? 빠르고 효율적인 AI 추론을 위한 오픈소스 라이브러리
Next Post
LLaMA-Factory 초보자 가이드: 쉽게 시작하는 LLM 파인튜닝