Large Language Models are Zero-Shot Reasoners(Kojima et al., 2022) 논문 요약 & 생각한 것들.. #22
Now100
started this conversation in
Show and tell
Replies: 2 comments 3 replies
-
|
앗 사진이 안보입니다 |
Beta Was this translation helpful? Give feedback.
3 replies
-
|
저희가 쓰는 모델은 10B 언더라서 첨부된 figure에 따르면 그렇게 성능이 안 오를 수는 있겠네요... |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
Uh oh!
There was an error while loading. Please reload this page.
-
0. Abstract
LLM들은 few-shot learning이나 혹은 fine tuning으로 좋은 성능을 내는 것으로 알려져있지만, CoT 기법을 활용한 Zero-shot-CoT만으로도 수작업으로 제작된 few-shot examples 없이 좋은 성능을 낼 수 있다는 결과를 이 연구를 통해서 얻었다.
Let’s think step by step이라는 문구를 붙이는 것 하나만으로도 산술 능력(MultiArith, GSM8K, AQUA-RAT, SVAMP)과 상징 추론 (Last Letter, Coin Flip) 등에서 좋은 성과를 내었다.
※ 산술능력 평가 지표의 비교
1. Introduction
기존 LLM들은 단일 단계(system-1) 문제에서는 zero-shot, few-shot 모두 탁월한 성능을 보이지만, 다단계 논리 추론(system-2) 문제에서는 모델의 크기를 100BR까지 키웠음에도 "스케일링 법칙(scaling laws)"을 충족시키지 못하는 모습을 보여줬다
이를 해결하기 위해 기존 연구에서 few-shot 예제에 단계적 사고 과정(CoT)을 포함하는 방법으로 논리 추론 문제에서 성능을 올리는 성과를 얻었다. 하지만 이와 같은 방법은 특정 작업에 맞춘 few-shot 예제들을 직접 설계해야하며, 보편적으로 적용시킬 수 없는 방법이라는 한계를 갖고 있다. 해당 연구는 단순히 프롬프트에 “Let’s think step by step”이라는 프롬프트를 추가하는 것 만으로도 상당한 성능 향상을 얻어낼 수 있음을 보여줌으로서 LLM이 훌륭한 Zero-shot 추론가(?)라는 것을 보여준다.
작업에 맞춰 잘 설계된 few shot CoT 프롬프팅보다는 Zero-shot CoT가 낮은 성능을 보이는 것은 맞지만 단순한 zero-shot 모델과 비교했을 때 MultiArith는 17.7%에서 78.7%까지, GSM8K는 10.4%에서 40.7%까지의 성능 향상을 보여줬다(InstructGPT model (text-davinci-002) 기준).
2. Background
대형 언어 모델과 프롬프팅(Prompting)
언어모델이란 텍스트의 확률 분포를 예측하는 모델이며, 최근의 모델과 데이터 크기가 비대해짐에 따라 사전학습 거대 언어 모델(pretrained LLM)이 등장했다.
프롬프팅이란 텍스트 프롬프트를 사용해 모델이 특정 작업의 답을 생성하도록 유도하는 기법이며 작업별 예제를 몇 가지 포함한 프롬프트를 제공하는 few-shot 프롬프팅과 작업 설명만 포함된 zero-shot 프롬프팅으로 나뉜다.프롬프팅은 모델 성능을 유도하는 효과적인 방법으로 떠오르며, 기존의 "사전 학습 후 미세 조정(pre-train and fine-tune)" 접근 방식에서 "사전 학습 후 프롬프팅(pre-train and prompt)" 패러다임으로 전환.
체인 오브 쏘트(CoT) 프롬프팅
다단계 추론(arithmetic, logic reasoning 등)이 요구되는 문제는 기존 대형 모델의 크기 확장만으로 해결이 어려우며, CoT는 복잡한 문제를 더 간단한 단계로 나눠 푸는 방식으로 성능을 크게 향상.
CoT는 퓨샷 프롬프트에 단계별 추론 예제를 추가하여 모델이 각 단계를 순차적으로 추론하도록 유도한다. CoT를 활용하면 모델 크기가 클수록 성능이 더 크게 향상되는 "스케일링 법칙(scaling laws)"을 따르게 됨.
하지만 CoT는 각 작업에 맞춘 단계별 예제를 제공해야 하므로, 예제 설계가 복잡하고 많은 노력이 요구됨.
기존 연구의 한계
CoT는 주로 퓨샷 학습 환경에서 활용되어 왔으며, 제로샷 학습 환경에서의 가능성은 거의 탐구되지 않음. 기존 연구는 대형 모델이 단순한 제로샷 프롬프트로는 다단계 추론 성능을 발휘하지 못한다고 가정함.
3. Zero-shot Chain of Thought
기존 체인 오브 쏘트(CoT)는 퓨샷 학습에서 작업별 예제를 사용해 단계별 추론을 유도했으나, Zero-shot-CoT는 별도의 예제가 필요하지 않다. 단일 프롬프트인 "Let’s think step by step"을 추가하여 모델이 다단계 논리를 스스로 생성하도록 유도하기 때문이다.
Zero-shot-CoT는 두 단계의 프롬프트 설계로 이뤄진다.
1단계: 추론 경로 생성
질문에 "Let’s think step by step"과 같은 트리거 문구를 추가하여 논리적인 추론 과정을 모델이 생성하도록 유도.
2단계: 정답 추출
첫 단계에서 생성된 추론 경로를 기반으로, 특정 형식(예: 숫자, 다지선다형 등)에 맞는 최종 정답을 모델에서 도출.
기존 CoT 방식은 퓨샷 예제와 각 작업별 정교한 설계가 필요했으나, Zero-shot-CoT는 작업에 구애받지 않고 단일 템플릿으로 모든 작업에 적용 가능. 다단계 추론을 필요로 하는 다양한 작업(산술, 논리, 상징 추론, 상식 등)에 대해 동일한 프롬프트를 사용.
4. Experiment
실험 대상:
모델:
Zero-shot-CoT과 Zero-shot의 비교:
모델 크기와 성능 관계:
Few-shot(CoT)와의 비교:
오류 분석:
프롬프트에 따른 Zero-shot-CoT의 영향
프롬프트에 따른 Few-shot-CoT의 영향
5. Discussion and Related Work
6. Conclusion
Zero-shot-CoT(Chain of Thought)은 다양한 추론 과제에서 대규모 언어 모델(Large Language Model, LLM)의 사고 과정을 이끌어내는 단일 제로샷 프롬프트를 제안. 이는 이전 연구에서 사용되던 과제별로 직접 설계된 Few-shot 과 대비됨. 제안된 방법은 복잡한 다단계 시스템-2 추론 과제에서 단순하면서도 강력한 제로샷 기준선을 제시하며, LLM의 확장 가능성을 극대화함.
생각한 것들
역사 도메인 등의 문제에서는 정확도가 그리 개선되지 않을 수 있겠다는 생각
few-shot 을 설계할 때, 굳이 국어, 사회 등과 같은 도메인이 아니어도 다지선다 few-shot examples만으로도 성능을 개선할 수 있겠다는 생각.
Beta Was this translation helpful? Give feedback.
All reactions