가장 많이 본 글

빅데이터 처리 기술

필자는 컴퓨터 관련 지식을 전공하지 않았다. 그래서 컴퓨터 아키텍처나 데이터 관리에 대해서는 매우 제한된 지식만을 가지고 있다. 하지만 데이터 분석을 하다보면 어쩔 수 없이 직면하게 되는 기술적 문제가 있는데 이는 크기가 너무 커서 내 노트북에서 로딩조차 되지 않는 데이터들이 있다는 것이다. 편의상 앞으로는 이정도 규모의 데이터들을 빅데이터라고 칭하도록 하겠다.

 본문은 필자가 세미나 수업시간에 읽게된 논문의 내용을 이해한 것을 바탕으로 빅데이터 처리기술에 대해서 컴퓨터 지식이 없는 데이터 분석 입문자의 입장에서 서술하도록 하겠다. 논문의 제목은 <Data-intensive applications, challenges, techniques and technologies: A survey on Big Data>이고 저자는 C.L. Philip Chen , Chun-Yang Zhang. Science Direct라는 저널에서 찾아볼 수 있다.

 일단 빅데이터의 문제를 이해하기 위해서 알아야 할 것은 컴퓨터는 연산장치와 저장장치가 분리되어 있다는 것이다. CPU에서 처리한 자료 또는 처리해야 할 자료는 다른 어딘가에 저장이 되어있어야 한다. 컴퓨터 전원이 켜져있을때에는 이를 RAM이라는 휘발성 메모리에 저장하면 되는데 전원이 꺼지면 RAM에 존재하는 데이터는 날아가버린다. 그래서 지속적으로 저장이 필요한 데이터는 보통 디스크라고 하는 저장소에 저장하게 된다.(컴퓨터를 켜면 들리는 '윙'하는 소리는 아마 디스크가 회전하는 소리일 것이다)

 이것이 무엇인 문제란 말인가? 문제는 데이터들이 이렇게 연산장치와 저장장치 사이를 반복적으로 왔다가 갔다가 해야 한다는데에 있다. 대형마트 안으로 사람들이 마구잡이로 달려드는 그림을 상상해보자, 마트는 순식간에 마비가 될것이다. 마트가 제대로 운영되려면 사람들은 계산대 앞에서 줄을서서 한명씩 빠져나가야 한다. 데이터 역시 마찬가지이다. 연산장치에서 제대로 계산이 이루어지려면 데이터는 줄을서서 차례차례 들어가고 나가야 한다. 그러면 어쩔 수 없이 데이터가 들어가고 나가는데 소요되는 시간이 증가한다. 물론 이마져도 보통 사람들이 하는 작업에는 큰 불편함이 없이 빠른시간에 완료된다. 하지만 어마어마하게 많은 데이터들이 이렇게 왔다갔다가를 반복해야 한다면 어떻게 될까? 이것이 컴퓨터가 가진 물리적인 한계이다. (연산장치와 저장장치의 구분이 없어지는 기술이 연구되고 있다고 하는데, 이는 컴퓨터 기술의 패러다임 자체를 바꾸는 엄청난 기술이라고 한다. 어쩌면 필자가 지금것 열심히 설명하고자 한 컴퓨터의 물리적 한계가 어느 미래 세대의 아이들에게는 마치 우리 세대가 책으로만 접한 애니악의 탄생처럼 멀게만 느껴지는 날이 오게 될지도 모르겠다)

계속해서 보기...https://brunch.co.kr/@haegun/6







댓글 없음:

댓글 쓰기