데이터 타입

Published: Jan 7, 2020 by Dev-hwon

데이터 객체 및 속성 유형

  • 데이터 집합은 데이터 객체 집합으로 구성된다.
  • DB의 경우, 각 데이터 객체에 해당하고, 속성에 해당한다.
  • 속성데이터 객체의 특성 또는 특징을 나타내는 데이터 필드이다.
  • 속성은 통계에서 변수라고 하며, 기계학습의 특징이다.
  • 주어진 객체를 기술하는데 사용되는 속성세트를 속성 벡터라고 부른다.
  • 하나의 속성을 포함하는 데이터의 분포를 단변량이라고 한다.

속성의 타입

1. nominal attribute (규범적 속성)

  • 어떤 상징이나 사물의 이름
  • ex) hair-color, marital-status, ID-numbers, etc.
  • 범주형 속성이라고도 한다. (categorical attribute)
  • nominal attribute의 가능한 값에 숫자나 코드를 사용할 수 있다. 이 경우, 수학연산은 의미가 없다.

2. binary attribute (이진 속성)

  • 0과 1의 두 가지 상태
  • 두 상태가 true 및 false에 해당하면 Boolean 이라고도 불림

3. ordinal attribute (순서 속성)

  • ordinal attribute는 의미 있는 순서 또는 순위를 가질 수 있는 값을 갖는 속성이지만, 연속값 사이의 크기는 알려져 있지 않다.
  • ex) Customer satisfaction - 0: very dissatisfied, 1: dissatisfied, … , 4: very satisfied
  • ordinal attribute의 중심 경향은 modemedian으로 표현 될 수 있으나, 평균은 정의 될 수 없다.
  • 실제 크기나 양을 주지 않고 물체의 특징을 설명

4. numeric attribute (숫자 속성)

  • interval - scaled attribute
    * 크기가 같은 단위로 측정
    * 가치의 순위를 제공하고, 가치의 차이를 비교하고 정량화 할 수 있게 해준다.
    * ex) temperature (celsius, fahrenheit)
  • ratio-scaled attribute
    * 고유의 영점을 가진 numeric attribute
    * 측정값이 ratio-scaled이면 값은 다른 값의 배수로 말 할 수 있으며, 값의 차이와 mean, median, mode를 계산 할 수 있다.
  • ex) Kelvin temperature scale, weight, height

5. discrete vs continuous attribute (이산/불연속, 연속 속성)

  • 이산 속성은 정수로 표현되거나 표현되지 않을 수도 있는 유한 또는 무한대의 값 집합을 가진다.
  • 연속 속성은 일반적으로 부동 소수점 변수로 표시된다.

데이터 셋의 유형

  1. record data
    - record data, transaction data, data matrix, document-term matrix
  2. graph data
    - world wide data, molecular structures
  3. ordered data
    - spatial, temporal, sequential, genetic sequence

데이터 셋의 특징

  • Dimensionality(차원): 데이터 셋을 포함하는 속성의 수
  • Sparsity(희소성): 0이 아닌 의미 있는 값만 저장
  • Resolution(선명도): 패턴은 스케일에 영향을 미친다.
    * 해상도가 너무 좋은 경우 패턴이 보이지 않거나 노이즈가 있을 수 있다.
    * 해상도가 너무 거칠면 패턴이 사라질 수 있다.
데이터 Data 데이터 타입 Data Type Attribute Nominal Binary Ordinal Numeric 데이터 마이닝 Data Mining