AI가 10만 명 참가 대규모 연구에서 평균 인간의 창의성을 능가하다

인공지능(AI)이 평균 인간을 창의성에서 능가하지만 최고의 지성은 여전히 우월하다

이번 주 Scientific Reports에 발표된 획기적인 연구는 인공지능의 진화에 결정적 이정표를 세웠습니다. 최초로 생성형 인공지능(Generative AI) 모델이 표준화된 창의성 테스트에서 평균 인간을 능가하는 능력을 입증했습니다. 그러나 100,000명 이상의 데이터를 분석한 이 연구는 중요한 단서를 제시합니다—가장 창의적인 인간은 가장 발전된 인공지능 시스템보다 여전히 크게 우수하다는 점입니다.

몬트리올 대학교(Université de Montréal), 콘코디아 대학교(Concordia University), 그리고 구글 딥마인드(Google DeepMind)의 다학제 연구팀이 수행한 이 연구는 인간 대 기계 창의성 비교 분석 중 최대 규모입니다. 연구 결과에 따르면, 인공지능이 “평균적” 창의성을 민주화했지만, 상위 수준의 상상력 능력은 명백히 인간의 고유 영역으로 남아 있다는 것을 보여줍니다.

연구 규모: 100,000명 참가자

몬트리올 대학교의 Karim Jerbi 교수와 인공지능 선구자 Yoshua Bengio가 참여한 이 연구는 오랜 논쟁—인공지능이 진정으로 창의적일 수 있는가?—에 종지부를 찍으려 했습니다. 이를 위해 연구자들은 소규모 사례나 엄격한 튜링 테스트(Turing test)에 머무르지 않고, 100,000명의 대규모 데이터셋을 이용했습니다.

평가의 핵심은 발산 연관 과제(Divergent Association Task, DAT)였습니다. 주관적 예술 비평과 달리, DAT는 개방형 문제에 대해 여러 고유한 해법을 생성하는 발산적 사고(divergent thinking)를 측정하도록 설계된 표준화된 심리검사 도구입니다. 참가자들은 의미적 거리를 최대화할 수 있는 열 개의 명사를 생성하도록 요청받았습니다.

예를 들어, 점수가 낮은 연속은 “고양이(cat), 개(dog), 애완동물(pet), 동물(animal)”이 될 수 있지만, 점수가 높은, 매우 창의적인 연속은 “은하(galaxy), 포크(fork), 자유(freedom), 조류(algae), 하모니카(harmonica)”와 같을 수 있습니다. 이 단어들 간의 의미적 거리는 계산을 통해 창의성 점수로 환산되었습니다.

비교 결과: “평균” 기준점

결과는 판도를 바꾸었습니다. 최신 대형 언어 모델(Large Language Models, LLMs)인 GPT-4, Claude, Gemini는 DAT에서 평균 인간 참가자보다 일관되게 높은 점수를 기록했습니다. 인공지능 모델은 의미적 군집을 깨고 이질적 개념을 빠르게 불러오는 능력이 뛰어나 발산적 사고의 특징을 잘 보여주었습니다.

그러나 데이터는 인공지능의 “창의성 천장”도 드러냈습니다. 기계는 중위 인간 성과를 쉽게 뛰어넘었지만, 상위 백분위수 인간과 겨루지는 못했습니다. 가장 창의적인 인간, 구체적으로 상위 10%는 GPT-4나 그 동료 모델의 최고 성과보다 더 독창적이고 다양한 의미적 연관을 지속적으로 생성했습니다.

다음 표는 연구에서 관찰된 비교 성과 수준을 요약합니다:

참가자 그룹	성과 순위	주요 특성
평균 인간	기준선	개념을 군집화하는 경향(예: 관련 있는 가정용품 나열)
생성형 인공지능 (GPT-4)	평균 이상	높은 의미적 거리; 인간 중위수 능력 초과
상위 10% 인간	우수	뛰어난 발산성; 매우 독창적이고 비선형적 연결

단순 연관을 넘어

연구자들은 결과가 단순 단어 게임에 국한되지 않음을 확인하기 위해 하이쿠 작성, 영화 줄거리 요약, 단편 소설 창작 등 더 복합적인 창의적 과제로 비교를 확장했습니다.

이러한 정성 평가에서 패턴은 뚜렷했습니다. 인공지능 모델은 평균 일반인보다 기술적으로 정교하고 구조적으로 탄탄한 창의적 텍스트를 생산했지만, 뛰어난 인간 작가나 매우 창의적인 개인과 비교할 때 미묘한 새로움과 감정적 공명은 종종 부족했습니다.

Jerbi 교수는 연구에서 인공지능은 기존 데이터를 효과적으로 “리믹스(remixer)”하여 예측 가능한 연관에 의존하는 인간을 능가할 수 있지만, 최고의 인간 창작자가 보여주는 의도적이고 불규칙하며 깊이 있는 새로운 도약을 복제하는 데는 어려움이 있다고 지적했습니다.

“온도”와 프롬프트의 역할

연구진은 인공지능 창의성에 영향을 미치는 기술 매개변수도 탐구했습니다. 모델 출력의 무작위성을 제어하는 매개변수인 온도(temperature)를 조정하자 성과에 큰 차이가 나타났습니다. 온도를 높이면 모델이 더 큰 위험을 감수해 더 발산적인 답변을 생성해 고수준 인간 성과에 근접했지만, 일관성은 종종 희생되었습니다.

또한, “어원에 대해 구체적으로 생각하라”와 같은 프롬프트 전략(prompting strategies)을 적용했을 때 창의성 점수가 향상되었습니다. 이는 인공지능 창의성이 고정된 특성이 아니라 인간의 안내에 크게 의존하는 조절 가능한 능력임을 시사합니다.

도구일 뿐, 대체는 아니다

이 연구가 창의 산업에 미치는 영향은 심오하지만 미묘합니다. 인간 창의성이 쓸모없게 되었다는 신호가 아니라, 생성형 인공지능이 강력한 보완 도구로 자리 잡았음을 의미합니다.

일반인에게 인공지능은 “창의성 엔진” 역할을 해 결과물을 더 높은 수준의 품질과 발산성으로 끌어올립니다. 최상위 창작자에게는 브레인스토밍의 “평균적” 무거운 작업을 처리해 주는 유능한 조수로 작용해, 인간은 기계가 아직 도달할 수 없는 고차원적 개념 작업에 집중할 수 있습니다.

“우리는 이 오해의 소지를 낳는 경쟁 의식을 넘어가야 합니다.”라고 Jerbi 교수는 연구 결과에 대해 말했습니다. “생성형 인공지능은 무엇보다 인간 창의성의 도구 역할을 하게 되었습니다. 창작자를 대체하지는 않지만, 그들이 상상하고 탐구하며 창조하는 방식에 깊은 변화를 가져올 것입니다.”

학술적 의의

Scientific Reports에 게재된 이 연구는 인공지능 평가 분야에서 **과학 연구**의 급속한 발전을 입증합니다. 생물학적 정신과 인공 정신 모두에 적용할 수 있는 정량화 가능한 창의성 메트릭을 확립함으로써, 이 연구는 향후 인공지능 개발을 위한 토대를 마련했습니다.

자동화로 창의성의 바닥은 높아졌지만, 천장은 여전히 높고 분명히 인간의 몫임을 예술계에 재확인시켜 주었습니다. 2026년이 다가오며 “평균을 넘어서는” 인공지능과 “우수한” 인간 지성의 협업이 혁신을 위한 가장 유망한 길로 보입니다。