앞서 데이터를 구조화된 형태에 따라 정형 데이터, 비정형 데이터, 반정형 데이터에 대해 알아보았다.
이 외에도 데이터 분석 분야에서는 적합한 분석 방법을 선택하기 위해 통계적 관점에서 데이터를 특성에 따라 분류한다.
통계적으로 데이터를 분석하는 관점에서 분류하는 것이라고 보면 되겠다.
우선 데이터는 연산이 가능한지 여부에 따라 크게 나눌 수 있다. 연산이 불가능하면 범주형 데이터, 연산이 가능하면 수치형 데이터이다.
1. 범주형 데이터(categorical data)(질적 데이터)
범주형 데이터는 범주(동일한 성질을 가진 범위)로 구분할 수 있는 값, 즉 종류를 나타내는 값을 가진 데이터이다.
크기 비교와 산술적인 연산이 불가능해 질적 데이터라고도 한다.
범주형 데이터는 순위를 매길 수 있는지 여부에 따라 순위를 매길 수 없는 명목형 데이터와 순위를 매길 수 있는 순서형 데이터로 나뉜다.
1.1) 명목형 데이터(nominal data)
명목형 데이터는 범주형 데이터 중 순위도 없는 데이터로 성별, 혈액형, 학과명, 거주 지역, 음식 메뉴 등이 있다.
1.2) 순서형 데이터(ordinal data)
순서형 데이터는 범주형 데이터 중 순위를 매길 수 있는 데이터로 학년, 학점, 회원 등급 등이 있다.
2. 수치형 데이터(numerical data)(양적 데이터)
수치형 데이터는 크기 비교와 연산이 가능한 데이터이다.
값의 연속성 여부에 따라 이산형 데이터와 연속형 데이터로 나뉜다.
2.1) 이산형 데이터(discrete data)
이산형 데이터는 수치형 데이터 중 연속적이지 않은 값을 가진 데이터이다. 고객 수, 판매량, 합격자 수 등이 있다.
2.2) 연속형 데이터(continuous data)
연속형 데이터는 수치형 데이터 중 키, 몸무게, 온도 등과 같은 연속된 값을 가지는 데이터이다.
정성적 데이터(qualitative data)와 정량적(quantitative data) 데이터
저장 및 처리 비용 측면을 이야기하기 위한 분류이다.
정성적 데이터
정성적 데이터는 사람의 주관적인 생각과 평가를 기술한 비정형 데이터로, 좁은 의미로는 범주형 데이터이다.
정량적 데이터
정량적 데이터는 수치나 도형, 기호 등으로 값을 표시한 정형 데이터로, 좁은 의미로는 수치형 데이터이다.
정량적 데이터에 비해 정성적 데이터가 저장 및 처리 측면에서 더 큰 비용이 든다.
요약
데이터는 연산 가능 여부에 따라 범주형 데이터(명목형 및 순서형)와 수치형 데이터(이산형 및 연속형)로 분류할 수 있으며, 그 성질에 따라 질적 데이터(비정형)와 정량적 데이터(정형)로 분류할 수 있다.
이러한 분류를 이해하면 다양한 데이터 분석 작업에서 적절한 분석 방법을 선택하고 데이터를 효율적으로 관리하는 데 도움이 될 수 있다.
'개발 > 데이터베이스(DB)' 카테고리의 다른 글
[데이터베이스] 데이터베이스 관리 시스템(DBMS)의 등장 배경 (0) | 2023.04.11 |
---|---|
[데이터베이스] 형태에 따른 데이터 분류 - 정형 데이터, 반정형 데이터, 비정형 데이터 (0) | 2023.04.11 |
[데이터베이스] 시스템(system)이란? 정보 시스템(information system)이란? (0) | 2023.04.11 |
[데이터베이스] 데이터(data)와 정보(information)의 차이는 무엇일까? (0) | 2023.04.11 |
[데이터베이스] 데이터베이스(Database)란? 쿼리(Query)란? (0) | 2023.04.10 |