백과사전 상세 본문
보는 우리시
대 DATA 데이터 분석 처리 시각화
데이터 차원 축소
DDR, Data Dimensionality Reduction참고 | 일반적으로 데이터 과학(data science) 분야에서는 데이터 객체 정보를 주로 데이터 속성(attribute)이라고 하며, 기계 학습과 데이터 마이닝 분야에서는 데이터 특징(feature)이라고 한다. |
---|
고차원의 원자료(raw data)를 데이터에 있는 의미 있는 특성은 유지하면서 저차원의 데이터로 변환하는 기법
데이터는 다양한 정보를 가지고 있는데, 프로그램에서 사용되는 데이터 또는 식별자에 의해 참조되는 데이터 객체(data object)가 가지는 여러 가지 항목(item)이나 범주(category) 정보들을 데이터 속성(attribute) 혹은 특징(feature)이라고 한다. 예를 들어, ‘사용자’ 데이터에는 ‘사용자’ 객체를 표현하기 위하여 이름, 성별, 전화번호 등의 정보를 속성으로 포함할 수 있다. 이러한 속성의 개수를 차원이라고 하며 속성이 2개일 경우 2차원 데이터, 3개일 경우 3차원 데이터라고 표현한다. 일반적으로 데이터 과학(data science)에 사용되는 원자료는 다차원의 정보를 포함한다.
데이터 과학에서 ‘차원의 저주(the curse of dimensionality)’는 데이터의 차원이 커질수록 분석을 위한 알고리즘 실행이 매우 복잡해지고 어려워지는 것을 말하는데, 이러한 문제를 해결하기 위한 방법의 하나로 데이터 차원 축소(DDR : Data Dimensionality Reduction) 기법을 사용한다. 데이터 차원 축소에서는 특정 문제를 해결하는 데 유의미한 특징들을 선택하는 특징 선택(feature selection) 혹은 상관관계가 높은 특징들을 합성하거나 변형하여 새로운 저차원의 특징을 만드는 특징 추출(feature extraction)을 사용한다.
데이터 차원 축소는 좋은 성능을 가진 이해하기 쉽고 빠르게 실행되는 데이터 모델을 만드는 데 목적이 있다. 고차원 데이터에 존재하는 잡음(noise) 제거, 향후 데이터 분석에서 발생하는 연산량 및 메모리 감소, 데이터를 저차원으로 시각화하거나 분석 결과를 설명하기 쉽게 하는 등의 장점이 있으나 데이터 차원 축소로 정보손실이 발생하여 모델 정확도가 떨어질 수 있다.
대표적인 데이터 차원 축소 기법으로 주성분 분석(PCA : Principal Component Analysis)각주1) , 선형 판별 분석(LDA : Linear Discriminant Analysis)각주2) 등이 있다.
본 콘텐츠를 무단으로 이용하는 경우 저작권법에 따라 법적 책임을 질 수 있습니다.
위 내용에 대한 저작권 및 법적 책임은 자료제공처 또는 저자에게 있으며, Kakao의 입장과는 다를 수 있습니다.
출처
정보통신용어사전에 수록된 용어 중 데이터 기술 분야 용어를 모아 실었습니다. 최근 이슈가 되고 있는 빅데이터를 이해하고 활용하는데 도움이 되기 바랍니다.
컴퓨터/정보통신과 같은 주제의 항목을 볼 수 있습니다.
백과사전 본문 인쇄하기 레이어
[Daum백과] 데이터 차원 축소 – 용어로 알아보는 우리시대 DATA, 한국정보통신기술협회
본 콘텐츠의 저작권은 저자 또는 제공처에 있으며, 이를 무단으로 이용하는 경우 저작권법에 따라 법적 책임을 질 수 있습니다.