가장 많이 본 글

데이터로 2016년 미국 대선 결과 예측해보기(2편)

이번에는 지난 글에 이어 프라이머리 경선 결과 예측 모델을 설명한고 대선 결과를 예측해보겠다. 인구통계 데이터에는 52개의 속성이 있었는데, 선형 모델을 만들 때 속성이 너무 많으면 예측의 정확도가 낮아지는 문제가 존재하기 때문에 먼저 PCA주성분 분석을 진행하여 데이터가 가진 52개의 차원을 10개의 차원으로 축약해보았다. 그림 1과 같이 분산이 상당히 줄어드는 것을 확인할 수 있다. 즉 52개의 속성은 사실 10개의 요약된 속성으로 충분히 표현이 가능하다는 것이다. (주성분 분석에는 R을 이용함) 축약된 10개의 특성은 그림 2와 같았다.(중요한 예측자로 나타난 6개의 성분에 대해서만 설명하겠다)

데이터 축약하기


득표율 예측

이렇게 얻어진 10개의 주성분을 이용하여 다중회귀 모델과 인공신경망 알고리즘을 모두 적용하여 프라이머리 경선 결과의 득표율을 예측해보았는데 예측의 정확도는 필자의 우려와는 반대로 52개 속성을 모두 입력 변수로 사용했을 때 보다 설명력과 정확도가 약간씩 감소하였다. 하지만 큰 차이는 없어서 여전히 유의미하다고 볼 수 있었다. 모델의 성능은 다음 그림과 같았다. 선형 상관관계는 입력변수과 목표 변수를 얼마나 잘 설명하는지를 확인하는 척도인데 트럼프와 힐러리의 데이터 모두 약 70% 정도의 설명력으로 양호한 결과를 보였다. 그리고 평균 오류도 낮은 편이었다. 하지만 최소 오류와 최대 오류 모두 매우 크게 나타나서 개별 데이터를 보았을 때는 예측이 잘 안된 케이스도 있다는 것을 알 수 있었다. (계산은 IBM SPSS Modeler 16.0을 이용하였다) 

계속해서 보려면 아래 원문링크 참조
https://brunch.co.kr/@haegun/8

댓글 없음:

댓글 쓰기