Large Language Models are Zero-Shot Reasoners(Kojima et al., 2022) 논문 요약 & 생각한 것들.. #22

Now100 · 2024-11-18T02:52:42Z

Now100
Nov 18, 2024
Collaborator

0. Abstract

LLM들은 few-shot learning이나 혹은 fine tuning으로 좋은 성능을 내는 것으로 알려져있지만, CoT 기법을 활용한 Zero-shot-CoT만으로도 수작업으로 제작된 few-shot examples 없이 좋은 성능을 낼 수 있다는 결과를 이 연구를 통해서 얻었다.

Let’s think step by step이라는 문구를 붙이는 것 하나만으로도 산술 능력(MultiArith, GSM8K, AQUA-RAT, SVAMP)과 상징 추론 (Last Letter, Coin Flip) 등에서 좋은 성과를 내었다.

※ 산술능력 평가 지표의 비교

Dataset	Description	Problem Structure	Example Problem	Use Case
MultiArith	간단한 산술 문제를 해결하기 위한 데이터셋으로, 주로 덧셈, 뺄셈, 곱셈, 나눗셈 같은 기본 연산을 포함	1~2단계의 간단한 산술 문제로 구성되며, 초등학교 수준의 문제를 다룸	“Nancy uploaded 41 pictures to Facebook. She put 37 pics into one album and the rest into 2 different albums. How many pictures were in each album?”	모델이 기본적인 산술 추론을 처리할 수 있는지 평가
GSM8K	8,500개의 고품질 초등학교 수학 문제를 포함하는 대규모 데이터셋으로, 다단계 추론을 요구하는 문제들로 구성	평균 2~8단계의 계산 과정을 필요로 하며, 다양한 언어 구조를 이해해야 함	"A person has 10 apples and gives away 3. How many apples are left?"	대형 언어 모델(LLM)의 다단계 추론 능력을 평가
AQUA-RAT	약 100,000개의 대수학 문제와 함께 자연어로 된 해설이 제공되는 데이터셋	각 문제는 질문, 5개의 선택지(A-E), 해결 과정을 설명하는 해설, 정답으로 구성됨	"A grocery sells a bag of ice for $1.25 and makes a 20% profit. If it sells 500 bags of ice, how much total profit does it make?”	모델이 대수학 문제를 풀고 인간과 유사한 설명을 생성할 수 있는지 평가
SVAMP	기존 산술 문제 데이터셋(예: ASDiv-A)에 변형을 가해 모델의 견고성을 테스트하는 챌린지 데이터셋	간단한 구조의 산술 문제로 구성되며, 보통 두 개의 수식과 하나의 미지수를 포함함	"Dan had $3 left after buying a candy bar. If he had $4 at the start, how much did the candy bar cost?”	모델이 문제 구조의 작은 변형에도 적응할 수 있는지 평가

1. Introduction

기존 LLM들은 단일 단계(system-1) 문제에서는 zero-shot, few-shot 모두 탁월한 성능을 보이지만, 다단계 논리 추론(system-2) 문제에서는 모델의 크기를 100BR까지 키웠음에도 "스케일링 법칙(scaling laws)"을 충족시키지 못하는 모습을 보여줬다

이를 해결하기 위해 기존 연구에서 few-shot 예제에 단계적 사고 과정(CoT)을 포함하는 방법으로 논리 추론 문제에서 성능을 올리는 성과를 얻었다. 하지만 이와 같은 방법은 특정 작업에 맞춘 few-shot 예제들을 직접 설계해야하며, 보편적으로 적용시킬 수 없는 방법이라는 한계를 갖고 있다. 해당 연구는 단순히 프롬프트에 “Let’s think step by step”이라는 프롬프트를 추가하는 것 만으로도 상당한 성능 향상을 얻어낼 수 있음을 보여줌으로서 LLM이 훌륭한 Zero-shot 추론가(?)라는 것을 보여준다.

작업에 맞춰 잘 설계된 few shot CoT 프롬프팅보다는 Zero-shot CoT가 낮은 성능을 보이는 것은 맞지만 단순한 zero-shot 모델과 비교했을 때 MultiArith는 17.7%에서 78.7%까지, GSM8K는 10.4%에서 40.7%까지의 성능 향상을 보여줬다(InstructGPT model (text-davinci-002) 기준).

2. Background

대형 언어 모델과 프롬프팅(Prompting)

언어모델이란 텍스트의 확률 분포를 예측하는 모델이며, 최근의 모델과 데이터 크기가 비대해짐에 따라 사전학습 거대 언어 모델(pretrained LLM)이 등장했다.

프롬프팅이란 텍스트 프롬프트를 사용해 모델이 특정 작업의 답을 생성하도록 유도하는 기법이며 작업별 예제를 몇 가지 포함한 프롬프트를 제공하는 few-shot 프롬프팅과 작업 설명만 포함된 zero-shot 프롬프팅으로 나뉜다.프롬프팅은 모델 성능을 유도하는 효과적인 방법으로 떠오르며, 기존의 "사전 학습 후 미세 조정(pre-train and fine-tune)" 접근 방식에서 "사전 학습 후 프롬프팅(pre-train and prompt)" 패러다임으로 전환.

체인 오브 쏘트(CoT) 프롬프팅

다단계 추론(arithmetic, logic reasoning 등)이 요구되는 문제는 기존 대형 모델의 크기 확장만으로 해결이 어려우며, CoT는 복잡한 문제를 더 간단한 단계로 나눠 푸는 방식으로 성능을 크게 향상.

CoT는 퓨샷 프롬프트에 단계별 추론 예제를 추가하여 모델이 각 단계를 순차적으로 추론하도록 유도한다. CoT를 활용하면 모델 크기가 클수록 성능이 더 크게 향상되는 "스케일링 법칙(scaling laws)"을 따르게 됨.

하지만 CoT는 각 작업에 맞춘 단계별 예제를 제공해야 하므로, 예제 설계가 복잡하고 많은 노력이 요구됨.

기존 연구의 한계

CoT는 주로 퓨샷 학습 환경에서 활용되어 왔으며, 제로샷 학습 환경에서의 가능성은 거의 탐구되지 않음. 기존 연구는 대형 모델이 단순한 제로샷 프롬프트로는 다단계 추론 성능을 발휘하지 못한다고 가정함.

3. Zero-shot Chain of Thought

기존 체인 오브 쏘트(CoT)는 퓨샷 학습에서 작업별 예제를 사용해 단계별 추론을 유도했으나, Zero-shot-CoT는 별도의 예제가 필요하지 않다. 단일 프롬프트인 "Let’s think step by step"을 추가하여 모델이 다단계 논리를 스스로 생성하도록 유도하기 때문이다.

Zero-shot-CoT는 두 단계의 프롬프트 설계로 이뤄진다.

1단계: 추론 경로 생성

질문에 "Let’s think step by step"과 같은 트리거 문구를 추가하여 논리적인 추론 과정을 모델이 생성하도록 유도.
2단계: 정답 추출

첫 단계에서 생성된 추론 경로를 기반으로, 특정 형식(예: 숫자, 다지선다형 등)에 맞는 최종 정답을 모델에서 도출.

기존 CoT 방식은 퓨샷 예제와 각 작업별 정교한 설계가 필요했으나, Zero-shot-CoT는 작업에 구애받지 않고 단일 템플릿으로 모든 작업에 적용 가능. 다단계 추론을 필요로 하는 다양한 작업(산술, 논리, 상징 추론, 상식 등)에 대해 동일한 프롬프트를 사용.

4. Experiment

실험 대상:

12개 데이터셋에서 네 가지 카테고리의 추론 작업 수행:
- 산술 추론(예: MultiArith, GSM8K)
- 상식 추론(예: CommonsenseQA)
- 상징 추론(예: Last Letter, Coin Flip)
- 논리 추론(예: 날짜 이해, 객체 추적)

모델:

InstructGPT3
original GPT3
PaLM
GPT-2
GPT-Neo
GPT-J
T0
OPT

Zero-shot-CoT과 Zero-shot의 비교:
- Zero-shot-CoT는 기존 제로샷 프롬프트 대비 대폭 성능 향상을 달성.
- 상징 및 논리적 추론 작업에서도 기존 제로샷 방법을 크게 상회.
모델 크기와 성능 관계:
- 모델 크기가 커질수록 Zero-shot-CoT의 성능이 급격히 향상.
  - 대규모 모델(GPT-3, PaLM 540B)에서 특히 효과적.
- 소규모 모델에서는 Zero-shot-CoT의 효과가 미미함.
Few-shot(CoT)와의 비교:
- Zero-shot-CoT는 작업에 따라 few-shot-CoT보다 낮은 성능을 보이지만, 퓨샷 없이도 비슷한 수준의 다단계 추론 능력을 발휘.
- few-shot-CoT가 작업별 예제 품질에 크게 의존하는 반면, Zero-shot-CoT는 단일 프롬프트로 다양한 작업에서 일관된 성능을 보임.
오류 분석:
- 상식 추론 작업에서는 정확도 개선이 제한적이지만, 생성된 추론 과정은 대체로 논리적이며 인간이 이해 가능한 방식으로 이루어짐.
- 잘못된 답변도 합리적인 추론 경로를 통해 도출되는 경우가 많음.
프롬프트에 따른 Zero-shot-CoT의 영향
- 유익(Instructive, 추론 장려), 방해(misleading, 추론 억제 혹은 잘못된 방향으로 추론 장려), 무관(irrelevant, 추론과 무관) 세가지의 카테고리의 프롬프트로 성능을 비교함
- Instructive 카테고리의 프롬프트가 가장 좋은 성능을 보였고, 그중 “Let’s think step by step” 프롬프트의 성능이 가장 좋은 것으로 나타남
프롬프트에 따른 Few-shot-CoT의 영향
- 도메인이 다른 few-shot이라 하더라도 답변 형식이 같은 few-shot 예제를 줄 때 그렇지 않은 경우와 비교해 훨씬 높은 성능을 보여줌
  - 이는 LLM이 문맥에 따라 작업 자체보다는 반복되는 형식을 추론하는 데 주로 few-shot 예제를 활용한다는 선행 연구[Min et al., 2022]를 뒷받침하는 결과
- 그럼에도 불구하고 두 경우 모두 Zero-shot-CoT보다 결과가 더 나쁨
  - Few-shot-CoT에서 작업별 샘플 엔지니어링의 중요성을 알게함

5. Discussion and Related Work

Zero-shot-CoT의 의의:
- 제로샷 학습의 새로운 기준:
  - Zero-shot-CoT는 few-shot 학습의 필요성을 줄이고, 단일 프롬프트로 다양한 논리적 작업에서 높은 성능을 보여줌.
- 대형 언어 모델의 숨겨진 추론 능력:
  - 단순한 프롬프트 변경만으로도 모델이 다단계 추론 능력을 발휘함을 입증.
- 작업 범용성:
  - 작업별 설계가 필요했던 기존 방법들과 달리, Zero-shot-CoT는 다양한 작업에서 동일한 프롬프트로 사용 가능.
기존 연구와의 비교:
- CoT와 같은 퓨샷 기반 방법은 작업별 맞춤형 예제 설계가 필요하며, 이는 많은 시간과 자원이 소모됨.
- 기존 제로샷 연구는 단순하거나 단일 단계 작업(system-1)에 초점을 맞췄지만, Zero-shot-CoT는 복잡한 다단계 추론(system-2)에 도전.
- Zero-shot-CoT는 대규모 언어 모델에서 성능이 더욱 향상되며, 기존 few-shot-CoT와 유사한 확장 법칙(scaling law)을 따름.
한계 및 개선점:
- Zero-shot-CoT의 성능은 프롬프트 문구에 민감하며, 최적의 프롬프트를 자동으로 설계하는 방법은 여전히 연구 과제로 남아 있음.
- 대형 언어 모델의 훈련 데이터 세부사항이 공개되지 않아, 모델의 성능 향상이 데이터 기억 효과인지 근본적 추론 능력인지 완전히 검증하기 어려움.
사회적 영향:
- 모델이 훈련 데이터에 포함된 편향을 증폭시킬 가능성이 있으며, Zero-shot-CoT는 이러한 편향을 더 명확히 드러낼 수도 있음.
- Zero-shot-CoT는 LLM의 논리적 능력과 잠재력을 이해하고 확장하는 데 중요한 발판이 될 수 있음.

6. Conclusion

Zero-shot-CoT(Chain of Thought)은 다양한 추론 과제에서 대규모 언어 모델(Large Language Model, LLM)의 사고 과정을 이끌어내는 단일 제로샷 프롬프트를 제안. 이는 이전 연구에서 사용되던 과제별로 직접 설계된 Few-shot 과 대비됨. 제안된 방법은 복잡한 다단계 시스템-2 추론 과제에서 단순하면서도 강력한 제로샷 기준선을 제시하며, LLM의 확장 가능성을 극대화함.

생각한 것들

상식 추론 작업에서는 정확도 개선이 제한적이지만, 생성된 추론 과정은 대체로 논리적이며 인간이 이해 가능한 방식으로 이루어짐.
역사 도메인 등의 문제에서는 정확도가 그리 개선되지 않을 수 있겠다는 생각
프롬프트에 따른 Few-shot-CoT의 영향(모델이 few-shot 예제에서 학습하는 것은 context가 아닌 pattern이다.)
few-shot 을 설계할 때, 굳이 국어, 사회 등과 같은 도메인이 아니어도 다지선다 few-shot examples만으로도 성능을 개선할 수 있겠다는 생각.

rasauq1122 · 2024-11-18T03:01:27Z

rasauq1122
Nov 18, 2024
Collaborator

앗 사진이 안보입니다

3 replies

Now100 Nov 18, 2024
Collaborator Author

으악

Now100 Nov 18, 2024
Collaborator Author

정상화 했읍니다...

bullmouse Nov 18, 2024
Collaborator

이 창 섭...

rasauq1122 · 2024-11-18T04:04:55Z

rasauq1122
Nov 18, 2024
Collaborator

저희가 쓰는 모델은 10B 언더라서 첨부된 figure에 따르면 그렇게 성능이 안 오를 수는 있겠네요...

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Large Language Models are Zero-Shot Reasoners(Kojima et al., 2022) 논문 요약 & 생각한 것들.. #22

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 2 comments 3 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Large Language Models are Zero-Shot Reasoners(Kojima et al., 2022) 논문 요약 & 생각한 것들.. #22

Uh oh!

Uh oh!

Now100 Nov 18, 2024 Collaborator

0. Abstract

1. Introduction

2. Background

대형 언어 모델과 프롬프팅(Prompting)

체인 오브 쏘트(CoT) 프롬프팅

기존 연구의 한계

3. Zero-shot Chain of Thought

4. Experiment

5. Discussion and Related Work

6. Conclusion

생각한 것들

Replies: 2 comments · 3 replies

Uh oh!

rasauq1122 Nov 18, 2024 Collaborator

Uh oh!

Now100 Nov 18, 2024 Collaborator Author

Uh oh!

Now100 Nov 18, 2024 Collaborator Author

Uh oh!

bullmouse Nov 18, 2024 Collaborator

Uh oh!

rasauq1122 Nov 18, 2024 Collaborator

Now100
Nov 18, 2024
Collaborator

Replies: 2 comments 3 replies

rasauq1122
Nov 18, 2024
Collaborator

Now100 Nov 18, 2024
Collaborator Author

Now100 Nov 18, 2024
Collaborator Author

bullmouse Nov 18, 2024
Collaborator

rasauq1122
Nov 18, 2024
Collaborator