Gery Kwon's posting

데이터로 알아본 한국사회 성별 갈등

데이터로 알아본 한국사회 성별 갈등

페이스북 대나무숲 페이지에 대한 텍스트 마이닝 분석

인터넷 공간에서의 남녀 갈등이 심각하다는 생각이 든다. 특정 커뮤니티에서 행해지는 상대방 성별에 대한 비판과 혐오는 최근 들어 사회에서 일어나는 큰 사건들을 구심점으로 하여 인터넷상의 많은 논쟁들을 점하고 있는데, 이 정도면 이전까지 성별 갈등에 대해 큰 관심이 없던 사람들도 올해 들어서는 소위 "남혐", "여혐"이라는 단어들을 한 번쯤은 들어봤을 것 같다는 생각이 든다. 특히 지난 5월 일어난 강남역 지하철 살인사건은 이러한 논쟁에 불을 지핀 계기였는데, 다음의 그래프를 통해서도 확연하게 드러나는 바이다.

"남혐","여혐"을 키워드로 입력한 네이버 검색량 추이

남혐? 여험? 그게 뭔데?

인터넷에서 격화되고 있는 남녀 간의 혐오 전쟁은 사실과 정황들에 근거한 주장들과 감정적이고 여론몰이 성격이 강한 주장들이 혼재되어 진행되고 있기 때문에 여러 의견들을 어떻게 이해하고 받아들여야 할지 참 어려운 면이 존재한다. 그래서 일단 주관적으로 해석될 수 있는 부분은 제쳐두고, "이러한 갈등은 어떠한 주제를 둘러싸고 있는 것인가?"에 대해서 인터넷 상의 글들을 수집하여 한번 파악해 볼 수 있을 것 같다는 생각을 갖게 되었다.

먼저 성별 혐오와 관련된 내용의 글들을 인터넷에서 수집하기로 결정했다. 언어가 너무 격화되어 있는 "일베", "메갈리아" 같은 사이트의 글보다는 보다 객관적인 입장에서 이러한 문제들에 대해 논의되는 데이터 소스를 찾고 싶었다. 그러던 중 최근 대학 학보의 기능인 사회문제 공론화 기능을 어느 정도 담당해가고 있다고 평가받는 각 대학들의 페이스북 대나무숲 페이지에 시선이 가게 되었다.

대학생들의 솔직한 한마디, 대나무숲

익명의 토론과 제보들이 일어나는 대나무숲 페이지

20대 초 중반 연령대의 의견으로 데이터가 편향될 것 같다는 우려가 있었지만 대학생들은 인터넷 상에서 활동이 가장 활발한 연령층이기도 하고 목적 자체가 성별 혐오에 대한 시시비비를 가리는 것이 아니라 관련 주제들에 대한 탐색이었기 때문에 결국 대학의 대나무숲에 있는 글들을 스크래핑하여 텍스트 마이닝을 진행하기로 결정했다. 그리고 많은 대학들이 대나무숲 페이지가 있었지만 좋아요 수가 많은 대학 5개만 선정하여 데이터를 수집하였다.

우선 5개 대학의 16년 1월부터 7월까지의 데이터를 R로 스크래핑하여 분석을 시작했다. 수집된 약 15000개의 글을 다시 "남혐", "여혐", "메갈", "일베" 등의 20개 키워드를 포함한 성별 간 혐오 관련 주제로 보이는 글로 간추려 보니 322개의 글이 최종적으로 분석 대상이 되었다.

간단한 통계로 알아본 글들

우선 알아보고 싶었던 것은 대학생들의 이러한 주제들에 대한 관심도였다. 따라서 성별 혐오 관련 주제글과 이를 포함한 모든 글의 "좋아요"와 "공유" 수를 평균 내어 비교해 보았다. 확실히 해당 주제들에 대해 대학생들이 더 많이 반응하고 있는 것을 확인할 수 있었다.

다음으로는 주제들에 대한 상대적인 관심도 차이를 확인해보기 위해 단어 수를 카운팅 하여 워드 클라우드로 시각화해 보았다. 이를 위해 R에서 사용할 수 있는 한국어 자연어 처리 패키지인 KoNLP를 이용하여 전체 글에서 명사들만 추출하였다. 자연어 처리에 앞서 페이스 북 글과 주제들에 맞는 단어장 추가와 불용어 처리 등의 전처리 과정이 수행되었다. 이렇게 추출된 명사들의 개수를 카운팅 하여 그 비중에 따라 워드클라우드를 만들어보니 다음과 같은 그림이 나왔다.

단어 출현빈도를 나타내는 워드클라우드

여자, 남자와 같이 상대방의 성별을 가리키는 단어들이 가장 빈번히 출현하는 것을 볼 수 있었고 그 뒤를 이어 혐오, 사회, 사건, 문제 같은 단어들이 보였다. 이는 "남혐", "여혐"이라는 주제들이 사회적 측면의 문제로 인식되어 공론화되고 있다는 것을 추측해 볼 수 있는 부분이다. 그리고 아무래도 강남역 사건의 여파 때문인지 강남역, 피해자, 가해자 등 관련 단어들이 많이 언급되는 것을 볼 수 있었다.

계속해서 보시려면 필자의 브런치 블로그를 방문해주세요

데이터로 2016년 미국 대선 결과 예측해보기(2편)

이번에는 지난 글에 이어 프라이머리 경선 결과 예측 모델을 설명한고 대선 결과를 예측해보겠다. 인구통계 데이터에는 52개의 속성이 있었는데, 선형 모델을 만들 때 속성이 너무 많으면 예측의 정확도가 낮아지는 문제가 존재하기 때문에 먼저 PCA주성분 분석을 진행하여 데이터가 가진 52개의 차원을 10개의 차원으로 축약해보았다. 그림 1과 같이 분산이 상당히 줄어드는 것을 확인할 수 있다. 즉 52개의 속성은 사실 10개의 요약된 속성으로 충분히 표현이 가능하다는 것이다. (주성분 분석에는 R을 이용함) 축약된 10개의 특성은 그림 2와 같았다.(중요한 예측자로 나타난 6개의 성분에 대해서만 설명하겠다)

데이터 축약하기

득표율 예측

이렇게 얻어진 10개의 주성분을 이용하여 다중회귀 모델과 인공신경망 알고리즘을 모두 적용하여 프라이머리 경선 결과의 득표율을 예측해보았는데 예측의 정확도는 필자의 우려와는 반대로 52개 속성을 모두 입력 변수로 사용했을 때 보다 설명력과 정확도가 약간씩 감소하였다. 하지만 큰 차이는 없어서 여전히 유의미하다고 볼 수 있었다. 모델의 성능은 다음 그림과 같았다. 선형 상관관계는 입력변수과 목표 변수를 얼마나 잘 설명하는지를 확인하는 척도인데 트럼프와 힐러리의 데이터 모두 약 70% 정도의 설명력으로 양호한 결과를 보였다. 그리고 평균 오류도 낮은 편이었다. 하지만 최소 오류와 최대 오류 모두 매우 크게 나타나서 개별 데이터를 보았을 때는 예측이 잘 안된 케이스도 있다는 것을 알 수 있었다. (계산은 IBM SPSS Modeler 16.0을 이용하였다)

계속해서 보려면 아래 원문링크 참조

https://brunch.co.kr/@haegun/8

빅데이터 처리 기술

필자는 컴퓨터 관련 지식을 전공하지 않았다. 그래서 컴퓨터 아키텍처나 데이터 관리에 대해서는 매우 제한된 지식만을 가지고 있다. 하지만 데이터 분석을 하다보면 어쩔 수 없이 직면하게 되는 기술적 문제가 있는데 이는 크기가 너무 커서 내 노트북에서 로딩조차 되지 않는 데이터들이 있다는 것이다. 편의상 앞으로는 이정도 규모의 데이터들을 빅데이터라고 칭하도록 하겠다.

본문은 필자가 세미나 수업시간에 읽게된 논문의 내용을 이해한 것을 바탕으로 빅데이터 처리기술에 대해서 컴퓨터 지식이 없는 데이터 분석 입문자의 입장에서 서술하도록 하겠다. 논문의 제목은 <Data-intensive applications, challenges, techniques and technologies: A survey on Big Data>이고 저자는 C.L. Philip Chen , Chun-Yang Zhang. Science Direct라는 저널에서 찾아볼 수 있다.

일단 빅데이터의 문제를 이해하기 위해서 알아야 할 것은 컴퓨터는 연산장치와 저장장치가 분리되어 있다는 것이다. CPU에서 처리한 자료 또는 처리해야 할 자료는 다른 어딘가에 저장이 되어있어야 한다. 컴퓨터 전원이 켜져있을때에는 이를 RAM이라는 휘발성 메모리에 저장하면 되는데 전원이 꺼지면 RAM에 존재하는 데이터는 날아가버린다. 그래서 지속적으로 저장이 필요한 데이터는 보통 디스크라고 하는 저장소에 저장하게 된다.(컴퓨터를 켜면 들리는 '윙'하는 소리는 아마 디스크가 회전하는 소리일 것이다)

이것이 무엇인 문제란 말인가? 문제는 데이터들이 이렇게 연산장치와 저장장치 사이를 반복적으로 왔다가 갔다가 해야 한다는데에 있다. 대형마트 안으로 사람들이 마구잡이로 달려드는 그림을 상상해보자, 마트는 순식간에 마비가 될것이다. 마트가 제대로 운영되려면 사람들은 계산대 앞에서 줄을서서 한명씩 빠져나가야 한다. 데이터 역시 마찬가지이다. 연산장치에서 제대로 계산이 이루어지려면 데이터는 줄을서서 차례차례 들어가고 나가야 한다. 그러면 어쩔 수 없이 데이터가 들어가고 나가는데 소요되는 시간이 증가한다. 물론 이마져도 보통 사람들이 하는 작업에는 큰 불편함이 없이 빠른시간에 완료된다. 하지만 어마어마하게 많은 데이터들이 이렇게 왔다갔다가를 반복해야 한다면 어떻게 될까? 이것이 컴퓨터가 가진 물리적인 한계이다. (연산장치와 저장장치의 구분이 없어지는 기술이 연구되고 있다고 하는데, 이는 컴퓨터 기술의 패러다임 자체를 바꾸는 엄청난 기술이라고 한다. 어쩌면 필자가 지금것 열심히 설명하고자 한 컴퓨터의 물리적 한계가 어느 미래 세대의 아이들에게는 마치 우리 세대가 책으로만 접한 애니악의 탄생처럼 멀게만 느껴지는 날이 오게 될지도 모르겠다)

계속해서 보기...https://brunch.co.kr/@haegun/6

데이터 분석의 미학

학부에서 경제학을 전공한 필자는 가설과 모델이라는 말을 참 많이 들었던 기억이 난다. 학부 4년을 간단하게 정리해보라고 한다면 결국은 경제학의 수많은 모델들을 탐색한 시간이었다고 대답할 것이다. 그리고 이러한 모델들의 배경에는 수많은 가설들이 존재했다. 경제학은 참 명료했다, 위대한 학자가 만들어낸 경제적 현상을 설명하는 모델이 있었고 이는 발생했던 현상을 설명하는데 유용했다. 모델이 설명하지 못하는 것이 있다면 그것은 가설과 부합하지 않거나 다른 모델을 통해 설명할 수 있는 현상이었다. 그래서인지 경제학은 사회과학이었지만 자연과학과 너무나도 닮아있었다.

경제학을 공부하면서 나는 아웃라이어에 대해 그렇게 주목하지 않았다. "모델은 현상에 대해 설명력을 갖는다."라는 사실이 중요했지 애초부터 가설을 이용해 세상의 복잡성을 제거한 모델이 설명하지 못하는 것이 있다는 것 자체가 너무나 당연했기 때문이다.

원문출처 : https://brunch.co.kr/@haegun/5

한국 스타트업 네트워크- 투자자편

살다 보면 세상 참 좁다는 생각이 드는 경우가 많다. 특히 학연, 혈연, 지연 같은 매개체가 있다면 종종 모르는 사람도 참 가깝게 느껴지곤 한다. 이는 아마 대한민국 스타트업의 생태계에서 활동하고 있는 많은 사람들에게도 예외는 아닐 것이다. 스타트업, VC, 엔젤투자자, 엑셀러레이터 그 외 주체들이 하나의 생태계를 이루는 소셜네트워크 안에서 스타트업 대표님들, 투자자들은 아마 한 다리 건너 아는 사이인 경우가 허다할 지도 모른다.

"그럼 과연 한국의 스타트업 생태계의 네트워크는 어떻게 구성되어 있을까?"라는 궁금증에서 시작하여 본문을 작성해봤다. 네트워크 안에서 스타트업 생태계의 주체들은 네트워크 안에 주어진 정보 또는 사회자본을 이용하여 자신의 이익을 도모하려 할 것이다. 각 주체들은 네트워크 나 자신의 위치를 이용하여 정보, 자금, 인맥의 흐름을 통제하거나 이용할 수도, 오히려 불리한 위치 때문에 제약을 받을 수도 있다. 본문에서는 소셜네트워크 분석 방법론을 이용하여 정량적인 접근법으로 한국 스타트업 네트워크에 대해서 분석해 보는 시간을 가졌다.

네트워크 분석을 위해 스타트업 전문매체인 플래텀에서 발행한 2014~2015 스타트업 투자동향보고서를 자료로 사용하였다. 보고서에서 50억 이상의 투자유치 케이스에 대해 나열한 연간 최고액 투자유치 스타트업 표(2년 치)를 사용하였으며 투자사와 스타트업의 관계 정보를 포함한 투-모드 네트워크 정보를 얻을 수 있었다.

만약 A투자사가 B스타트업에 투자를 진행했다면 A와 B 간의 관계가 형성된 것으로 간주하였다. 50억 이상의 Institutional Money라고 볼 수 있는 케이스만 포함하였기 때문에 자료는 그보다 작은 수준에서 생성된 네트워크 관계를 반영하지는 못한다. 하지만 해당 수준의 투자가 이루어진 후에는 투자자의 역할이 스타트업의 성장에 더욱 중요 해 지는 만큼 서로 간의 관계가 갖는 의미가 더 크다고 간주할 수도 있을 것이다. 투자자, 대표적으로 벤처캐피털은 과거의 경험을 바탕으로 스타트업의 프로세스 개선이나 경영 목표 설정하는데 영향력을 행사하기도 하기 때문에 벤처캐피털이 투자를 진행할 때는 자신의 과거 투자이력에 맞는 스타트업에 투자할 가능성이 높다. 때문에 스타트업을 매개체로 형성된 투자자들의 네트워크는 특정한 구조나 의미를 지니고 있을 것이다. 투자사와 스타트업의 투자관계로부터 얻은 매트릭스를 제곱하여 투자사와 스타트업의 네트워크를 각자 구할 수 있었는데 본편에서는 투자사 네트워크에 대한 분석만 진행한다.

투자사 네트워크 분석

자료에 대해 한 번 더 설명하자면 위 네트워크 구조도는 14~15년 플래텀 스타트업 투자동향 보고서의 자료를 기반으로 소셜네트워크 분석 프로그램을 실행하여 얻게 된 네트워크 구조이다. 총 90개의 노드로 구성되어 있으며 노드는 투자사들이고 이들을 연결한 라인들은 스타트업을 매개체로 한 투자사들 간의 관계이다.

밀도 및 클러스터링 계수

네트워크의 밀도는 0.32(최대밀도: 1)로 이는 실제 연결관계 대비 최대 가능한 연결관계를 반영한다. 투자사들이 서로 상당히 많은 연결관계를 맺고 있는 것을 알 수 있다. 그림 좌측의 투자사들의 연결관계가 우측에 비해 적은 것을 볼 수 있는데 러프하게 구분할 경우 변두리에는 비(非) 벤처캐피털, 중심에는 벤처캐피털이 많이 포진 해 있는 것을 볼 수 있다. 평균적으로 벤처캐피털이 더 다양한 스타트업 기업들에 대한 투자를 진행하기 때문인 것을 유추할 수 있다.

클러스터링 계수는 0.668로 상당히 높게 측정되었다. 이는 네트워크 내에 군집화 정도를 나타내는 지표로서 계수가 높을수록 네트워크 내에 서로 연결관계가 조밀하게 얽힌 노드들이 많다는 것을 의미한다. 높은 클러스터링 계수로 보아 투자사들의 네트워크에는 서로 긴밀하게 협력관계를 유지하는 그룹들이 있을 가능성이 크다는 것을 알 수 있다.

계속해서 보시려면 필자의 브런치 블로그를 방문해주세요 ^^

https://brunch.co.kr/@haegun/3

2013년 상해 테크크런치 데모데이 발표장면

가슴벅찼던 데모데이 발표날

이제는 중국인들도 더 이상 저작권에 대해서 가볍게 생각할 수 만은 없을 것 같다. 최근 들어 중국에서는 이와 관련해서 급격한 변화가 진행되는 중이다. 그 동안 중국의 컨텐츠 소비 환경은 저작자의 권리보다는 사용자의 편의를 중심을 두고 성장해왔다. 사람들은 영화, 음반, 게임 등 대부분 컨텐츠들을 무료로 사용하면서도 이를 당연시 했다. 하지만 작년부터 빠르게 늘어나고 있는 저작권 관련 소송과 이를 대하는 정부의 태도변화에서 중국사회의 방향전환 조짐이 엿보인다.

드라마 ‘별에서 온 그대’의 인기가 한창일 때 뒤늦게 시청자 대열에 합류한 필자가 지난 회를 보기 위해서 방문한 곳은 중국의 한 동영상 사이트였다. 바람직한 선택은 아니었지만 그래도 무료로 원하는 영상을 대부분 찾아볼 수 있는 중국 사이트들의 유혹은 떨쳐내기가 힘들다. 비단 한국의 컨텐츠 뿐만이 아닌 전 세계의 컨텐츠들을 중국에서는 대부분 무료로 이용할 수 있다. 하지만 이런 상황이 앞으로도 지속될 수 있을까?

4월 16일 콰이보(快播, P2P방식의 동영상 재생 서비스)가 서비스 중단을 선언하고 영업방식을 전면적으로 개편 할 것이라고 밝혔다. 콰이보는 그 동안 동영상 내용 전송에 대한 기술적 서비스만 제공한다는 명분 하에 각종 음란물이나 불법저작권에 대해서 방관하는 태도를 취해왔다. 법의 회색지대에서 실리를 취하던 콰이보 이용자들은 이번 조치로 마지막 남은 오타쿠들의 성지 마저 무너졌다며 안타까워하고 있다. 콰이보의 이번 발표에는 불법내용에 대한 자체 검열과 저작권 확보 그리고 문화컨텐츠 자체 제작을 위한 투자 등을 명시하고 있는데 이는 앞으로 중국에서 동영상 재생 서비스를 제공하고 있는 회사들이 나아갈 방향과 일치한다고 볼 수 있다.

저작권 이슈가 있는 곳은 비단 동영상 만이 아니다. 중국의 출판업계 역시 저작권 지키기에 적극적으로 나서고 있다. 각종 소설이나 무협지 같은 픽션에서부터 자기개발이나 자서전 같은 종류의 책들까지 모두 다 그 대상이다. 특히 주목할만한 추세는 출판사들이 출판물이 가진 하나의 컨텐츠 자원을 방송, 영화, 게임 등으로 확장시켜서 여러 사업영역을 아우르는 하나의 자원으로서 관리하기 시작했다는 점이다.

게임업계도 사정은 마찬가지 이다. 신흥시장인 모바일게임이 수많은 업체 진입으로 포화상태가 되면서 이미 알려진 소재를 이용해 비슷한 게임을 만드는 방법으로 개발사들은 리스크를 줄여왔다. 하지만 작년부터 지적재산권에 대한 법적 대응이 증가하면서 IP가격이 1년새 2~3배로 급등했다. 중국 모바일게임은 특히 무협소재가 많은데 대부분 유명 무협소설에서 소재를 가져온다. 하지만 최근에는 유명 무협소설 작가 김용선생의 저작권을 보유한 창유, 완미세계가 IP 불법도용에 법적으로 대응하면서 작년 한 해만 운영을 접은 게임이 100개가 넘을 정도이다.

위에서 나열한 몇 가지 사실들 보다 더 중요한 것은 저작권 환경의 근본적 변화이다. 그 동안 저작권 관리가 어려웠던 것은 법률적으로 보호범위가 제한되고 처벌이 약하다는 제도적 문제가 있었기 때문이다. 기존의 틀 안에서는 저작권자들이 수 많은 저작권 침해 사례들에 대해서 그 사실을 일일이 증명해야 했기 때문에 수익보다는 그로 인한 손실이 훨씬 더 컸다. 하지만 최근에는 제 3자인 플랫폼이 저작권 분쟁의 새로운 이해당사자가 되고 있다. 예를 들어 과거에는 불법 동영상 유포를 막기 위해 배포자자 잡기에 급급했다면 최근에는 동영상 공유 플랫폼에도 책임을 묻는다. 인터넷 출판사로서 많은 저작권을 가진 샨다문학(盛大文学) 역시 저작물 불법 도용에 일일이 대응하기 보다는 바이두, 소후, 360, 텐센트 등의 검색 포털과 협약을 맺고 웹상에서 저작권 침해를 미리 차단하려는 시도를 하고 있다. 모바일 게임도 마찬가지이다. 예전엔 IP도용을 통해 바짝 수익을 올린 뒤 소송을 당하면 약간의 벌금만 내면 되는 식이었기 때문에 중소규모 개발사들의 불법도용이 끊이지를 않았다. 하지만 이제는 법적 제재가 가해지기 전에 저작권자가 먼저 써드파티 마켓을 압박해서 게임 다운로드를 차단시키고 있다. 이와 더불어 저작권자들의 저작권을 공동 관리하는 협의체들도 많이 생성되고 있다. 이는 저작권 관리의 효율성을 높여서 침해사례들에 대해서 더욱 빠르게 대응할 수 있도록 할 것으로 생각된다.

중국의 저작자 권리개선은 아직도 갈 길이 멀다. 하지만 멀티미디어 컨텐츠가 상품가치를 지닌 재화로서 자리를 잡아감에 따라 저작권을 다른 자산과 동등하게 취급해야 한다는 의식도 점점 더 확산되어 가고 있다는 점은 명백한 사실이다. 14년도 인민대표대회(중국에서 가장 큰 규모의 정치회의)에서 컨텐츠산업 육성이 중요한 발전전략으로 제시되었다. 중국사회가 저작권 보호를 통해 낙후된 컨텐츠 산업의 부흥을 이끌어 낼지 아니면 저작권 보호가 컨텐츠 가격 상승만 부추기는 자본의 횡포로 끝날지는 알 수 없다. 다만 확실한 것은 변화 속에 새로운 기회가 도전자들을 기다리고 있다는 점 이다.