지도 학습이란 무엇인가요?

Michael Chen | Content Strategist | 2024년 7월 17일

지도 학습은 레이블이 지정된 데이터 세트를 사용해 알고리즘을 학습시키는 머신러닝의 한 형태입니다. 지도 학습 과정에서 알고리즘은 레이블이 지정된 데이터 세트를 바탕으로 입력과 출력 간의 관계를 파악할 수 있습니다. 알고리즘은 훈련 데이터를 분석해 예측 모델을 개선하거나 자동화된 워크플로 내의 의사 결정을 지원할 수 있는 패턴을 파악합니다. 한 마디로 알고리즘이 구조화된 교실 안의 학생이라면, 레이블이 지정된 데이터 세트는 학생이 학습할 수 있는 예제와도 같습니다.

지도 학습은 다양한 목적 및 상황에 적합한 선택입니다. 잘 정의된 목표가 있는 프로젝트인 경우, 비지도 학습보다 지도 학습을 사용할 때 더 빠르게 목표를 달성할 수 있습니다. 비지도 학습은 알고리즘이 매개 변수 또는 목표 없이 레이블이 없는 데이터 세트를 수집하고 데이터의 패턴과 관계를 스스로 결정하도록 하는 과정에서 많은 시간이 소요되기 때문입니다. 지도 학습에서는 레이블이 지정된 데이터 세트가 알고리즘 훈련 과정에서의 이정표 역할을 수행합니다.

또한 다른 형태의 머신러닝 방식과 비교했을 때, 지도 학습 알고리즘 훈련은 특징 및 결과와 같이 알려진 수량을 다룰 수 있다는 장점이 있습니다. 표준 메트릭을 통해 트레이너가 프로젝트의 현재 상태를 확실하게 파악할 수 있으므로 검토 프로세스가 가속화됩니다.

지도 학습은 기업에 많은 이점을 제공합니다. 기업은 빅 데이터를 효율적으로 처리하는 기능을 통합해 데이터로부터 패턴과 인사이트를 훨씬 빠르게 파악하고 더욱 시기적절한 의사결정을 수행할 수 있습니다. 또한 지도 학습 알고리즘을 사용하면 업무 자동화 관련 작업을 강화해 워크플로를 개선하고 속도를 향상시킬 수 있습니다. 과거 데이터 세트를 사용해 제조 작업에 사용되는 머신러닝 알고리즘이 다양한 장비의 일반적 유지보수 주기를 식별하도록 훈련하는 작업을 예로 들어 보겠습니다. 훈련을 마친 알고리즘은 해당 지식을 현장의 센서로부터 전송되는 실시간 데이터에 적용해 각 도구의 사용량 및 성능을 추적할 수 있습니다. 또한 추적한 정보를 바탕으로 중요 부품의 마모 징후를 표시하거나 수명이 다했음을 사전 경고해 주므로 관리자는 공구의 오작동으로 인해 생산 라인이 중단되기 전 교체품을 주문할 수 있습니다.

지도 학습이란 무엇인가요?

지도 학습 방식의 머신러닝은 입력물과 출력물이 명확하고 일관적으로 식별되는, 레이블이 지정된 훈련 데이터 세트를 큐레이팅하는 작업부터 시작됩니다. 알고리즘은 훈련 데이터 세트 내의 관계를 학습하고, 학습 내용을 바탕으로 예측을 위한 수학적 모델을 구축합니다. 훈련 프로세스는 모델이 원하는 수준의 정확도를 달성할 때까지 알고리즘을 개선하기 위해 반복적으로 진행됩니다. 목표한 정확도를 달성하면 다양한 데이터 세트를 사용해 모델이 실제 데이터로 작동할 준비가 되었는지 평가하고 확인합니다.

지도 학습 알고리즘은 일반적으로 다음과 같은 두 가지 범주 중 하나에 속합니다.

분류: 분류 알고리즘은 데이터를 가져와 입력하고 분류된 기준대로 출력합니다. 예를 들어, 사기 탐지를 위한 금융 알고리즘은 신용카드 고객의 구매 내역을 살펴보고 해당 데이터를 사용해 새로운 거래가 합법적이라고 판단할지, 또는 추가적인 사기 검사를 위한 플래그를 지정할지 여부를 결정합니다.

회귀: 회귀 알고리즘은 레이블이 지정된 학습 데이터 세트를 사용해 입력과 출력 간의 가장 적합한 관계를 식별해 새로운 입력에 대한 수학적 예측을 수행합니다. 예를 들어, 날씨 예측 알고리즘은 계절, 최근 추세, 과거 패턴, 현재 환경 메트릭 등의 변수를 바탕으로 일기예보를 위한 출력을 작성합니다.

지도 학습은 입증되고 효과적인 머신러닝 방법이지만 몇 가지 도전 과제가 수반됩니다. 프로젝트 팀은 지도 학습을 진행할지 여부를 결정하기 위해 다음과 같은 문제를 검토해야 합니다.

모델 선택: 지도 학습 알고리즘의 복잡성 및 리소스 집약도는 서로 다릅니다. 예를 들어 의사 결정 트리(의사 결정 포인트 및 예상되는 결과로 이루어진 순서도)는 소규모 풋프린트로도 실행할 수 있지만 복잡한 영역에 요구되는 엄격한 정확도를 구현하기는 어렵습니다. 반면 심층 신경망은 학습 및 운영에 훨씬 더 많은 리소스가 필요하지만 정확한 예측 및 더 폭넓은 작업을 수행할 수 있습니다. 적절한 균형을 찾는 것이 프로젝트 성공의 핵심입니다.

훈련 데이터의 품질: 모든 머신러닝 프로젝트에는 고품질 소스에서 수집한 정제된 데이터가 필요합니다. 특히 지도 훈련 데이터의 경우 고품질의 데이터란 학습에 사용되는 다른 소스와 호환되는, 정확하고 일관적인 레이블링을 거친 데이터를 의미합니다. 훈련 데이터 세트가 호환 가능한 형식이 아닌 경우, 훈련에 앞서 데이터 통합 및 변환 기술을 반드시 적용해야 하므로 그에 따른 시간과 비용이 추가됩니다.

프로젝트 제약조건 이해: 예산, 교육 환경 리소스, 마감일과 같은 요소는 머신러닝 프로젝트의 진행을 좌우하는 실질적인 제약 조건으로 작용할 수 있습니다. 그러한 제약 조건이 알고리즘 선택에 영향을 미칠 수 있으므로 프로젝트 팀은 훈련을 시작하기 전 관련 매개 변수를 파악해야 합니다.

정리해 보자면, 지도 학습은 레이블이 지정된 데이터 세트를 사용 가능한 프로젝트에 적합한 머신러닝 방식이 될 수 있습니다. 그 외에도 프로젝트 팀은 지도 학습이 정확한 예측이나 식별된 패턴에 기반한 결정(예: 사기 또는 스팸 탐지와 같이 알고리즘을 올바른 결과와 잘못된 결과의 예로 학습시킬 수 있는 경우)이 필요한 프로젝트에 가장 효과적인 방식이라는 점을 감안해야 합니다. 마지막으로 의사 결정 트리 및 선형 회귀와 같은 다양한 유형의 지도 학습 모델을 이해하면 진행하고자 하는 특정 프로젝트에 적합한 접근 방식이 무엇인지 더 잘 파악할 수 있습니다.

지도 학습에 가장 적합한 AI 사용 사례는 무엇일까요? e-book을 통해 정답을 확인해 보세요.

지도 학습 FAQ

지도 학습 알고리즘의 예시로는 어떤 것이 있나요?

지도 학습 알고리즘의 예시로는 환자의 전자 건강 기록을 기반으로 특정 질환의 발병 가능성을 예측하는 모델을 만드는 작업을 들 수 있습니다. 해당 모델은 증상, 나이, 검사 결과, 기존 질환 등의 다양한 요인을 기반으로 레이블이 지정된 환자 데이터 세트를 학습합니다. 이를 통해 시스템은 환자의 데이터를 수집해 특정 질환의 발병 가능성을 예측하고, 필요한 경우 더욱 면밀한 검사를 권장할 수 있습니다.

비지도 학습의 예시는 무엇인가요?

지도 학습과 달리 비지도 학습 알고리즘은 레이블이 지정되지 않은 데이터 세트를 학습합니다. 비지도 학습의 목표는 알고리즘이 스스로 데이터를 탐색해 패턴을 식별할 수 있도록 만드는 것입니다. 자체적인 패턴 식별 능력을 갖춘 모델은 실제 데이터를 분석하는 데 사용할 수 있습니다. 비지도 학습의 예시로는 고객들의 사용 및 구매 내역에 대한 대규모 데이터 세트로부터 패턴을 파악해 마케팅 목적으로 고객을 그룹화하는 고객 세분화 모델이 있습니다.

CNN은 지도 학습인가요, 비지도 학습인가요?

컨볼루션 신경망(CNN)은 자연어 처리 등의 유사한 모델을 사용하는 애플리케이션과 같이 이미지 또는 동영상 분석 등을 목적으로 레이블이 지정된 데이터 세트를 학습시키는 지도 학습 기법입니다. CNN은 여러 계층을 사용해 특징/세부 사항 등의 식별, 분류 기준 적용 등의 작업을 서로 분리하고 계산 리소스를 최적화합니다.