데이터,data

같은주제 다른페이지 데이터data 자료,data

Rel 데이터과학,data_science
Sub
데이터분석,data_analysis - 분석,analysis
{
중요 원리들
}
데이터행렬,data_matrix - 행렬,matrix표현,representation하는 것에 대한?
빅데이터,big_data
data_transformation - curr at 변환,transformation - curr name 변환
데이터시스템,data_system or 데이터체계,data
{
data_acquisition
data acquisition - the process of sampling signals that measure real world physical conditions and converting those samples into digital numeric values that can be used by a computer
data_compression
data compression- the process of encoding information using fewer bits than the original data would use
data_encryption
data encryption - the translation of data into a code that allows secure storage or transmission
data_engineering
data engineering - the process of engineering the storage, transmission and processing of data to minimize cost or maximize performance
data_handling
data handling - the process of ensuring that data is stored or disposed of in a secure manner after use
data_processing
data processing - any computer process that summarizes, analyzes or converts data into usable information
처리,processing , 처리기 = processing_system ~= 처리,processor
data_storage_system
data storage systems - the retention of data in forms not immediately accessible by a CPU, such as hard drives and other devices slower but more permanent than RAM
// via https://ethw.org/Category:Data_systems
}
데이터,data
데이터,data
데이터,data
데이터,data
데이터,data
데이터,data



Source: ㄷㅎㅈ 2-1

1. 데이터의 형태

1.1. 수치형 데이터

데이터가 수치(분명 numerical value ? WtEn:numerical_value x WpSp:Numerical_value x WpEn:Numerical_value redir to Number .... NdEn:수치 KmsK:수치 수,number 값,value)로 되어 있음
  • 연속형 데이터 : 모든 실수값이 가능 // 연속형데이터 연속형자료
  • 이산형 데이터 : 특정 값(보통 정수)만 가능 (ex. 문자메시지 수신 횟수) // 이산형데이터 이산형자료

1.2. 범주형 데이터 categorical data

  • 데이터가 범주(클래스, 팩터 등)로 되어 있음 // 범주,category 클래스,class, 팩터,factor?
  • 명목형 데이터 : 순서가 없음 (ex. 성별, 지역, 오류코드 등)
  • 순서형 데이터 : 순서가 있음 (ex. 상/중/하, 등급 등)

1.3. 수치형과 범주형의 구분

수치형데이터와 범주형데이터의 구분
보면 안다 - 너무 많다면? - 보통은 R이나 Python 데이터 읽는 함수가 고유의 알고리즘으로 판단한다고.

대상은 표본,sample? chk

일반적인 판단의 절차
값,value문자,character기호,symbol의 형태shape? form?
→ 범주형 categorical_data?
숫자 형태인데 겹치는 값이 거의 없을 때
→ 수치형 데이터
100개의 표본이 98개의 서로 다른 값을 갖는다? - 98개의 범주를 가질 일은 거의 없으니까 수치형으로 판단.
숫자 형태인데 겹치는 값이 많을 때
→ 범주형 데이터에 대한 코드인지 확인 코드인지 확인이 뭔소리? - 아무튼 범주형일 가능성이 상당히 높은 경우임.
100개의 표본이 1과 2 두 개의 값 만을 갖는다

1.4. 순서-범주형과 이산-수치형은 서로 다름

  • 상/하 vs. 2/1은 수학적으로 유사하게 다룰 수 있음
  • 상/중/하 vs. 3/2/1은 불가능
  • 일반적으로 서로 구별됨
    • 상과 하의 차이는 중과 하의 차이와 같지 않음

1.5. 그 외에도 중도절단 데이터 등이 있음

2. 데이터의 형태에 따른 분석,analysis

2.1. 수치형 데이터

  • 연속/이산 모두 동일하게 연속형 데이터로 분석

2.2. 범주형 데이터

  • (기초단계) 명목/순서 모두 동일하게 명목형으로 분석
  • (고급단계) 순서형 데이터를 순서를 고려하는 방법론을 쓰거나 이산-수치형으로 변환하여 분석
    • 변수에 대한 이해가 필요

2.3. 본 강의에서는

Source: ㄷㅎㅈ 2-2

3. 수치형 데이터: 대표값

평균(mean, average) // 평균,mean 평균,average
$\displaystyle \bar{X}=\frac1n\sum_{i=1}^n X_i$
중간값, 중앙값 // 중앙값,median
모든 값을 크기 순으로 일렬로 세웠을 때 가운데 있는 값
표본이 짝수 개라면 가장 중간의 두개의 mean을 씀.
최빈값(mode) // 최빈값,mode 모드,mode
가장 많이 나타나는 값 // 최대,maximum 빈도,frequency인?

4. 수치형 데이터: 분포의 표현

분포,distribution를 표현하는 값
도수분포표(frequency table) // 아마 pagename: 빈도표,frequency_table


5. 수치형 데이터: 시각화

박스플롯(boxplot)


Q1 Q3이 box.
박스 중간의 선은 median(Q2).
Q3−Q1은 IQR(interquartile range).
Q3+1.5×IQR - whisker (??) - 점선?? chk
Q1−1.5×IQR - whisker ?
그 점선 안의 최소/최대를 minimum value, maximum value로 한다... (outliers는 따로 원으로 표기)