데이터의 종류에는 연속형 특성, 범주형 특성, 이산형 특성이 있다. 연속형 특성의 예로는 주가변동, 몸무게 변화 등이 있고, 범주형 특성의 예로는 성별, 인종, 혈액형 등이 있다. 범주형 특성 간은 연속된 값으로 나타나지는 않는다. 흑인과 동양인 사이에는 중간값이 없고 이 카테고리들 사이에는 순서가 없다. 특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것을 feature engineering이라고 한다. 타이타닉 데이터셋을 예로 들겠다. 1. 범주형 변수 (Categorical features)연속형 feature : age, 범주형 feature : Pclass, Name, Sex, Embarked (1) 원 핫 인코딩 (가변수) 가변수는 범주형 변수를 0 또는 1 값을 가지는 새로운 featur..