콴다는 LLM을 어떻게 활용할 수 있을까? — 1편

교육에서의 LLM 활용 전략

Peyton Kim
Team QANDA

--

최근 들어 인공지능 분야에서 “Large Language Model (LLM)” 기술이 매우 주목을 받고 있습니다. 이미 인공지능은 큰 주목을 받고 있던 기술이지만, 최근 LLM의 인기는 지금까지 인공지능이 받던 주목을 무색하게 할 만큼 엄청나 보입니다. LLM이 분류상으로는 인공지능의 한 부분임을 감안하면, 이번 LLM의 급부상으로 인공지능이 다시 한번 기대감을 모으고 있다고 보아도 과언이 아닙니다. 이번 블로그에서는 LLM에 대한 전반적인 설명과 함께, 콴다 팀은 LLM을 어떻게 바라보고 있는지 소개하려 합니다.

LLM은 거대한 언어 모델입니다. 이 모델은 수백만 개의 문장과 단어를 학습하고, 이를 통해 사람처럼 언어 이해와 생성 능력을 보여줍니다. OpenAI의 ChatGPT이나 Google의 PaLM 등은 강력한 LLM을 기반으로 만들어진 서비스입니다. 이런 서비스들의 기반이 되는 LLM들은 인터넷에서 수집된 대규모 텍스트 데이터를 기반으로 학습됩니다. 이런 대규모 데이터 세트를 학습하는 과정에서 모델은 문법, 어휘, 상식 등 다양한 언어적 지식을 습득하며, 그 결과로 자연어 이해와 생성의 수준이 급격히 향상되었습니다.

사실 지난 10년간 인공지능 분야에서는 수많은 연구가 이루어졌기에, 자연어뿐 아니라 거의 모든 분야에서 그 성능이 급격하게 향상되고 있습니다. 그런데 LLM이라는 기술은 유독 강력한 파도처럼 시장으로 덮쳐오고 있습니다. LLM의 어떤 점이 이런 차이를 만들었을까요.

  1. 자연어 처리 분야의 혁신: 인공지능 분야의 수많은 연구들이 저마다의 성능을 향상시켰다고는 하지만, 그중에서도 LLM은 자연어 처리 분야에서 눈에 띄는 발전을 이루어 냈습니다. 대규모 데이터 세트를 이용한 pre-trained model 이 다수의 Natual Language Understanding 과제(text generation, text completion, machine translation, abstraction, question answering 등)에서 높은 성능을 달성할 수 있다는 것을 보였습니다. 이런 혁신적인 성과로 인해 다양한 자연어 처리 분야에서 핵심 기술로 인식되었습니다.
  2. 구조적 확장성: Transformers 구조를 기반으로 하는 LLM 모델들은 규모의 확장이 가능합니다. 기존의 연구들에서는 task마다 그에 맞는 구조(architecture)를 찾기 위해 노력했습니다. 더 나아가서는 이러한 노력에도 인공지능을 적용하는 연구(Neural Architecture Search)도 진행되었습니다. 반면, Transformers 구조를 가지고 있는 최근의 LLM들은 대규모 데이터셋으로 훈련되고, 엄청난 수의 learnable parameter를 가지고 있음에도 구조의 확장이 가능해졌습니다. 이러한 확장성 덕분에 복잡한 언어 패턴을 포착하고 인간과 유사한 텍스트를 생성할 수 있으므로 다양한 작업에 매우 유용합니다.
  3. 일반화 능력: 최근 등장한 LLM 모델들은 놀라운 일반화 능력을 보입니다. 직접적인 supervised training이 진행되지 않은 작업에서도 뛰어난 성능을 발휘하고 있습니다. 이러한 일반화 능력 덕분에, 더 이상 복잡한 개발 없이도 인공지능에게 다양한 과제를 부여할 수 있게 되었습니다. 이를 전문으로 하는 prompt engineering 이라는 분야가 새롭게 생겨나고, 사용자의 요구사항을 매우 잘 이해하는 특성은 “LLM이 일반 지능 (general intelligence)인가” 라는 논의를 일으키기도 했습니다. 또한, 이러한 적응성 덕분에 다양한 건강 관리, 금융, 엔터테인먼트, 교육 등 넓은 산업 분야에서 LLM을 접목하려는 시도를 보입니다.
  4. 접근성: GPT를 개발한 OpenAI는 이러한 모델을 개발자와 연구자가 접근하기 매우 간편하게 만들었습니다. GPT-3와 같은 모델의 사전 훈련 버전을 공개하고 추가 학습까지 가능한 API를 제공하여 개발자가 자신의 애플리케이션에 통합하기 쉽도록 만들었습니다. ChatGPT의 API 역시 공개하여 다양한 비즈니스가 이 기술을 활용하기에 더욱 용이해졌습니다. LLM은 그 크기가 너무 큰 나머지 이를 serving하는 것조차 간단하지 않다는 점을 고려해보면, 접근성의 향상은 LLM의 인기에 중요한 역할을 했다고 생각합니다.
    실제 parameter와 소스코드를 공개하지 않는 OpenAI나 Google과는 다르게 Meta는 오픈소스 진영에서 큰 역할을 하고 있습니다. Meta는 훌륭한 성능의 LLM 모델인 Llama-2의 parameter와 이를 구동할 수 있는 코드까지 오픈소스로 공개했고, 그 결과 다양한 연구들이 Llama-2를 기반으로 진행되고 있습니다.
5행시를 지어달라는 요청을 이해하고, 그에 맞는 응답을 제공합니다. 이런 형태의 과제를 학습 과정에서 많이 접해보지 못했을 것으로 추정되는 것에 비해 뛰어난 일반화 성능을 보여주는 것을 알 수 있습니다.

위에 나열한 특징들 덕분에 주변 곳곳에서 LLM을 활용한 변화들이 움트고 있습니다. 이러한 시도를 접할 때면, LLM 및 여기에서 파생될 인공지능 기술들이 산업 전반에 걸쳐 가져올 혁신적인 변화와 우리의 삶과 사회에 미칠 파급력을 기대하게 됩니다. 하지만 여느 기술과 마찬가지로, LLM 또한 다양한 문제점이 지적되고 있습니다. 그중에서도 가장 조명을 받는 문제점은 hallucination 현상입니다. LLM의 “hallucination 현상”은 모델이 텍스트를 생성하거나 이해할 때 실제로는 없는 정보 또는 문맥을 만들거나 이해하는 현상을 나타냅니다. 이는 LLM 들이 사용자로부터 주어진 데이터가 아닌, 학습 데이터를 통해 학습한 일부 무작위한 패턴이나 정보를 기반으로 생성하거나 추론하는 과정에서 발생합니다. LLM의 hallucination 현상은 주로 아래와 같은 상황에서 나타날 수 있습니다.

  1. 인과 관계의 오류: LLM은 문맥을 파악하기 위해, 사용자로부터 주어진 이전 문장이나 단어, 대화 내역을 고려합니다. 하지만, LLM이 text를 생성하는 과정에는 확률 기반의 sampling 이 포함되어 있습니다. 이 과정에서 모델이 부정확한 인과 관계를 설정하고, 실제로는 연관이 없는 정보를 생성할 수 있습니다.
  2. 정보의 과장: 모델이 학습용 데이터에서 높은 빈도로 나타난 어떤 패턴을 학습했다면, 정보를 과장하거나 과도하게 강조하는 hallucination이 나타날 수 있습니다. 이런 현상이 심해질 경우, 사실과 다른 정보를 사용자에게 제공하는 경우도 있습니다.

LLM의 hallucination 현상이 크게 문제가 되는 이유는 사용자들이 LLM을 활용하는 패턴이 매우 다양하기 때문입니다. 여러 사용 패턴 중 가장 치명적인 패턴은 “검색의 대체" 입니다. 사용자들은 LLM과 단순히 대화하거나, 특정 과제를 수행하도록 지시하는 것을 넘어서 LLM으로부터 “지식을 검색”하기 시작했습니다. 복수의 기사에 따르면, 미국에서 학생들이 학습 컨텐츠를 검색하는 Chegg.와 개발자들이 trouble shooting을 위해 활용하는 Stack Overflow의 활성 사용자 수가 ChatGPT와 Copilot의 등장 이후로 유의미하게 감소하였다고 합니다. 다수의 사용자들이 정답이 있는 지식을 검색할 때에도 LLM에게 질문하고 있음을 알 수 있습니다. 이런 상황에서 발생하는 LLM hallucination 현상은 치명적입니다. LLM은 사용자의 질문에 그럴듯한 답변을 주었고, 사용자는 만족했지만, 실상은 사용자가 잘못된 지식을 습득한 것이니, 답변 제공에 완전히 실패한 것 보다도 못한 셈입니다.

이러한 단점을 보완하기 위해 Microsoft는 검색엔진과 LLM을 결합한 Bing Chat을 공개했습니다. Google 역시 Search Labs에서 검색과 generative AI를 결합한 서비스를 공개하였습니다. 이 서비스들은 LLM에 담겨있는 정보를 꺼내어 주는 것을 넘어서, 기존의 검색엔진을 활용하고, 검색된 결과물을 요약하여 사용자에게 “출처와 함께” 전달합니다. 이를 통해 사용자들은 더 자세한 정보를 보거나, 정보의 출처가 의심될 때, 추가적인 액션을 통해 직접 확인할 수 있습니다. LLM에게 “검색엔진”이라는 강력한 도구를 부여한 셈인데, 이로 인해 얻을 수 있는 이점은 명확합니다.

Bing Chat에 질문하면, 답변과 함께 정보의 출처를 제공합니다.
  1. 정보의 출처: LLM이 검색을 통해 정보를 가져오기 때문에, 해당 정보가 어디에서 어떻게 생성된 것인지 출처를 명확하게 알 수 있습니다. 사용자의 입장에서도 hallucination에 대한 염려를 상당 부분 줄일 수 있습니다.
  2. 지식의 추가: LLM은 말 그대로 “거대한” 언어 모델입니다. 그렇기 때문에 LLM이 알지 못하는 새로운 지식을 주입하는 과정이 간단하지만은 않습니다. 하지만 검색엔진을 활용한다면 새로운 정보를 담은 문서를 제작하고, 이 문서가 검색될 수 있도록 DB에 추가하는 간단한 작업 만으로도 LLM이 활용할 수 있는 지식을 손쉽게 확장할 수 있습니다.

이 외에도 여러 장점을 가지고 있기 때문에, DB를 활용한 검색과 LLM을 결합하려는 시도들이 등장하고 있습니다.

콴다에서는 LLM을 어떻게 활용할 수 있을까

콴다 역시 대용량의 문제/풀이 데이터를 보유하고 있고, 이를 활용한 검색 서비스를 전세계에서 성공적으로 운영하고 있습니다. 그러다보니 자연스럽게 LLM의 활용법에 대해 큰 관심을 두고 연구 및 개발을 진행하고 있습니다.

사실, 콴다의 서비스에는 LLM이라는 거대한 흐름이 오기 전에도 이미 다양한 인공지능 모델들이 활용되고 있었습니다. 문제 영역을 자동으로 검출하고, 문제가 아닌 이미지를 걸러내거나, OCR을 통해 수식이 포함된 수학 문제를 읽어내는 데에는 Vision 기반의 인공지능 모델이 활용되었습니다. OCR이 읽어낸 수식을 자동으로 풀어주거나, 문제의 맥락을 이해하고 이를 분류하여 사용자의 학습 패턴을 분석하고, 그에 맞는 컨텐츠를 추천하기도 하였습니다. 또한, DB 내에 존재하는 duplicate item들을 탐지하여 DB를 정제하는 데에도 인공지능이 핵심적으로 활용되었습니다. 예시에서 알 수 있듯이 주로 discriminative model들을 pipeline에 넣는 방식으로 인공지능을 활용해 왔습니다. 하지만 LLM은 매우 강력한 generative model이고, 이는 콴다의 인공지능이 새롭게 할 수 있는 일이 매우 다양해졌음을 의미합니다. 기존의 작업들의 다수가 분류 및 인식을 통해 pipeline을 자동화하는 방식이었다면, LLM을 활용하여 DB를 가공하고, 새로운 정보를 생성하여 사용자에게 전달할 수 있게 되었습니다.

이러한 상황 속에서 콴다가 바라보는 LLM의 활용 방안은 크게 세 가지로 나누어볼 수 있습니다.

  1. 데이터 가공: 콴다에는 다양한 종류의 데이터가 있습니다. 가장 대표적으로는 문제와 해설이 있고, 학생들의 질문과 그에 대한 선생님의 답변이 있습니다. 학년별 커리큘럼과 수학적 개념에 대한 데이터 역시 존재합니다. 이러한 데이터들은 저마다의 포멧으로 구성되어 있기 때문에, 통일성이 높지 않습니다. LLM은 이러한 데이터들을 이해하고, 정렬하여 통일된 포멧으로 변환하는 데에 탁월한 효과를 보입니다.
    가장 먼저 LLM을 적용한 데이터는 문제의 해설이었습니다. LLM을 활용하여 학습자에게 가장 효율적인 형태로 해설을 변형시켰고, 이를 콴다 봇 풀이 라는 이름으로 서비스하게 되었습니다.
  2. 검색 기반 풀이: LLM은 수학 문제 해결에 있어서만큼은 약한 모습을 보여주고 있습니다. 문제 해결에 필요한 개념을 제대로 짚어내지 못하는가 하면, 매우 간단한 사칙연산도 종종 틀리곤 합니다. 이는 hallucination 문제를 발생 시킵니다. Microsoft와 Google에서 공개한 “검색엔진과 결합된 LLM 서비스”를 관찰하다보면, 이러한 hallucination 문제를 해결하기 위해서 콴다의 검색서비스와 LLM을 접목시키는 아이디어를 자연스럽게 떠올리게 됩니다. 이는 빠르게 연구 및 개발이 진행되었고, 콴다의 AI 튜터 서비스로 이어졌습니다.
  3. 수학 전문 LLM: 검색이 hallucination 현상을 완화한다고는 하지만, LLM 자체가 가지는 특성 때문에 문제 풀이에는 한계가 있었습니다. 이를 해결하기 위해서 콴다는 수학 도메인에 특화된 LLM을 직접 학습시켜야 한다고 판단했습니다. 현재는 지금껏 쌓인 데이터와 인공지능 모델을 활용하여 수학 도메인의 expert LLM을 학습시키고 이를 서비스에 적용할 수 있도록 연구를 진행하고 있습니다.

이번 글에서는 LLM에 대한 전반적인 설명과 함께, 콴다가 바라보는 LLM의 활용 방안에 대해 간략하게 소개해 보았습니다. 이어지는 글에서는 각각의 방향성에 대해서 실제 콴다에서는 어떤 일이 진행되고 있는지, 또 앞으로는 어떻게 진행될지에 대해 더 구체적으로 소개해보도록 하겠습니다.

➡️ 콴다는 LLM을 어떻게 활용할 수 있을까? — 2편

🌏콴다 팀에서는 글로벌 Top AI Tutor를 함께 만들어 갈 AI Researcher를 찾고 있습니다!➡️ 공고 확인하기

--

--