[Weekly Ritual Digest 2 | Scaling Self-Play with Self-Guidance]
@ritualnet @ritualfnd @ritualnet_korea
Following our previous post, the second topic explores why LLMs cannot scale infinitely through self-play, where they generate and solve their own problems.
1. The dilemma of reward-hacking
In theory, if a Conjecturer creates problems and a Solver tackles them, the model should improve forever. In practice, however, the Conjecturer tends to "reward-hack," generating artificially ugly and overly complex problems simply to stump the Solver.
2. Introducing a third role: The Guide
To break this cycle, the researchers introduced a third role: a Guide. The Guide scores the generated Lean4 problems based on their relevance, clarity, and actual usefulness toward solving targeted, unsolved problems.
3. The triumph of a smaller model
Driven by the directional feedback of the Guide, a 7B parameter prover model eventually exceeded the pass@4 performance of the massive 671B DeepSeek-Prover-V2 model after multiple rounds.
4. Wrapping up the second paper review
This is a crucial finding, showing that without an evaluation metric setting the right direction, even highly capable models can get stuck in meaningless computational loops.
Next time, we will look into a study that reframes the process of scientific discovery in LLMs through evaluation-driven scaling.
---
[Weekly Ritual Digest 2 | ์๊ฐ ํ์ต์ ํ๊ณ ๋ํ: ๊ฐ์ด๋๊ฐ ์๋ ์
ํ ํ๋ ์ด]
์ง๋ ๊ธ์ ์ด์ด ๋ ๋ฒ์งธ ์ฃผ์ ๋ ์ธ์ด ๋ชจ๋ธ์ด ์ ์ค์ค๋ก ๋ฌธ์ ๋ฅผ ๋ด๊ณ ํธ๋ '์
ํ ํ๋ ์ด(Self-play)' ๋ฐฉ์์ ํตํด ๋ฌดํํ ์ฑ๋ฅ์ ๋์ด์ง ๋ชปํ๋์ง ๋ถ์ํ ์ฐ๊ตฌ์
๋๋ค.
1. ๋ณด์ ํดํน์ ๋๋ ๋ง
์ด๋ก ์ ์ผ๋ก ๋ฌธ์ ์ถ์ ์(Conjecturer)๊ฐ ๋ฌธ์ ๋ฅผ ๋ง๋ค๊ณ ํด๊ฒฐ์(Solver)๊ฐ ์ด๋ฅผ ํ๋ฉด ๋ชจ๋ธ์ ์์ํ ๋ฐ์ ํด์ผ ํฉ๋๋ค. ํ์ง๋ง ์ค์ ๋ก๋ ์ถ์ ์๊ฐ ๋จ์ํ ํด๊ฒฐ์๋ฅผ ๊ณค๋ํ๊ฒ ๋ง๋ค๊ธฐ ์ํด ์ธ์์ ์ด๊ณ ๊ธฐ๊ดดํ๊ฒ ์ด๋ ค์ด ๋ฌธ์ ๋ง ์์ฑํ๋ ๋ณด์ ํดํน(Reward-hacking) ํ์์ด ๋ฐ์ํฉ๋๋ค.
2. ์ 3์ ์ญํ : ๊ฐ์ด๋(Guide)์ ๋์
์ฐ๊ตฌ์ง์ ์ด ์
์ํ์ ๋๊ธฐ ์ํด '๊ฐ์ด๋(Guide)'๋ผ๋ ์ธ ๋ฒ์งธ ์ญํ ์ ๋์
ํ์ต๋๋ค. ๊ฐ์ด๋๋ ์์ฑ๋ ์ํ(Lean4) ๋ฌธ์ ๋ค์ด ์์ง ํ์ง ๋ชปํ ๋ชฉํ ๋ฌธ์ ๋ค๊ณผ ์ผ๋ง๋ ๊ด๋ จ์ฑ์ด ๋๊ณ , ๋ช
ํํ๋ฉฐ, ์ ์ฉํ์ง๋ฅผ ์ ์๋ก ํ๊ฐํฉ๋๋ค.
3. ์ํ ๋ชจ๋ธ์ ๋ฐ๋
์ด๋ฌํ ๊ฐ์ด๋ ์์คํ
์ ๋ฐฉํฅ์ฑ ์ ์์ ํ์
์ด 7B ํ๋ผ๋ฏธํฐ์ ์ํ ์ฆ๋ช
๋ชจ๋ธ์ด ๋ฐ๋ณต ํ์ต ๋์ ๋ฌด๋ ค 671B ํฌ๊ธฐ์ DeepSeek-Prover-V2 ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๋์ด์๋ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์์ต๋๋ค.
4. ๋ ๋ฒ์งธ ๋
ผ๋ฌธ ๋ฆฌ๋ทฐ๋ฅผ ๋ง์น๋ฉฐ
์ด๋ ์๋ฌด๋ฆฌ ๋ฐ์ด๋ ๋ชจ๋ธ์ด๋ผ๋ ์ฌ๋ฐ๋ฅธ ๋ฐฉํฅ์ ์ค์ ํด ์ฃผ๋ ํ๊ฐ ๊ธฐ์ค ์์ด๋ ๋ฌด์๋ฏธํ ์ฐ์ฐ๋ง ๋ฐ๋ณตํ ์ ์์์ ๋ณด์ฌ์ฃผ๋ ์ค์ํ ๊ฒฐ๊ณผ์
๋๋ค.
๋ค์ ์๊ฐ์๋ ์์ด์ ํธ์ ๊ณผํ์ ๋ฐ๊ฒฌ ๊ณผ์ ์ ํ๊ฐ ์ฃผ๋ํ ํ์ฅ ๋ฐฉ์์ผ๋ก ์ฌ๊ตฌ์ฑํ ์ฐ๊ตฌ์ ๋ํด ์์๋ณด๊ฒ ์ต๋๋ค.
@joshsimenhoff @mongdiny7 @Jez_Cryptoz @dunken9718