Claude, GPT, Gemini 세 모델 토론 50회 돌려본 결과 정리

5개 역할(전략가, 분석가, 리스크 담당, 혁신가, 데빌스 어드보캇)을 AI 모델에 배정하고 같은 비즈니스 케이스로 라운드별 토론을 진행. 별도 심판 모델이 5개 차원에서 합의도를 평가하고 아첨형 동조(sycophantic agreement)를 체크하는 구조

혼자 궁금해서 멀티 모델 토론 실험을 좀 돌려봤습니다. Claude, GPT, Gemini한테 같은 비즈니스 케이스를 주고 각각 전략가, 분석가, 리스크 담당, 혁신가, 데빌스 어드보캇 역할을 배정해서 라운드별로 토론을 시켰어요. 별도 심판 모델이 합의도를 평가하면서 아첨형 동조(진짜 근거 없이 그냥 따라가는 것)도 체크하게 했습니다.

50회 넘게 돌려보니까 패턴이 꽤 뚜렷하더라고요.

Claude는 반대 역할에서 가장 끈질기게 자기 입장을 유지합니다. 단순히 "아닌데요"가 아니라 구체적인 실패 시나리오를 매핑해서 보여주는 식이에요. Sonnet이 특히 이 부분에서 인상적이었습니다.

GPT는 입장 변경이 잦은 편인데, 강한 반론에 진짜로 반응해서 바꾸는 경우도 있어서 전부 나쁘다고 하긴 어렵습니다. 다만 심판이 아첨성 동조를 잡을 때 GPT인 경우가 확실히 더 많았습니다.

Gemini는 혁신가 역할에서 다른 모델이 생각 못한 각도로 문제를 재구성하는 걸 잘하는데, 적대적 역할에서는 입장을 빨리 누그러뜨리는 경향이 있었습니다.

가장 흥미로웠던 건 순차 토론(서로 응답을 보면서)과 독립 토론(격리 상태에서)의 합의 패턴 차이입니다. 독립 모드에서 진짜 의견 불일치가 훨씬 높게 나오는데, 아이디어를 스트레스 테스트하려면 이쪽이 더 쓸모 있을 것 같습니다.

혹시 비슷하게 모델끼리 토론시켜본 분 계시면 패턴이 어떤지 궁금합니다.

50회 넘게 돌려보니까 패턴이 꽤 뚜렷하더라고요.

혹시 비슷하게 모델끼리 토론시켜본 분 계시면 패턴이 어떤지 궁금합니다.

Claude, GPT, Gemini 세 모델 토론 50회 돌려본 결과 정리

댓글

Claude, GPT, Gemini 세 모델 토론 50회 돌려본 결과 정리

댓글