가장 많이 본 글

데이터로 알아본 한국사회 성별 갈등

데이터로 알아본 한국사회 성별 갈등
페이스북 대나무숲 페이지에 대한 텍스트 마이닝 분석


인터넷 공간에서의 남녀 갈등이 심각하다는 생각이 든다. 특정 커뮤니티에서 행해지는 상대방 성별에 대한 비판과 혐오는 최근 들어 사회에서 일어나는 큰 사건들을 구심점으로 하여 인터넷상의 많은 논쟁들을 점하고 있는데, 이 정도면 이전까지 성별 갈등에 대해 큰 관심이 없던 사람들도 올해 들어서는 소위 "남혐", "여혐"이라는 단어들을 한 번쯤은 들어봤을 것 같다는 생각이 든다. 특히 지난 5월 일어난 강남역 지하철 살인사건은 이러한 논쟁에 불을 지핀 계기였는데, 다음의 그래프를 통해서도 확연하게 드러나는 바이다.

"남혐","여혐"을 키워드로 입력한 네이버 검색량 추이
 남혐? 여험? 그게 뭔데?
  인터넷에서 격화되고 있는 남녀 간의 혐오 전쟁은 사실과 정황들에 근거한 주장들과 감정적이고 여론몰이 성격이 강한 주장들이 혼재되어 진행되고 있기 때문에 여러 의견들을 어떻게 이해하고 받아들여야 할지 참 어려운 면이 존재한다그래서 일단 주관적으로 해석될 수 있는 부분은 제쳐두고, "이러한 갈등은 어떠한 주제를 둘러싸고 있는 것인가?"에 대해서 인터넷 상의 글들을 수집하여 한번 파악해 볼 수 있을 것 같다는 생각을 갖게 되었다.
  먼저 성별 혐오와 관련된 내용의 글들을 인터넷에서 수집하기로 결정했다. 언어가 너무 격화되어 있는 "일베", "메갈리아" 같은 사이트의 글보다는 보다 객관적인 입장에서 이러한 문제들에 대해 논의되는 데이터 소스를 찾고 싶었다. 그러던 중 최근 대학 학보의 기능인 사회문제 공론화 기능을 어느 정도 담당해가고 있다고 평가받는 각 대학들의 페이스북 대나무숲 페이지에 시선이 가게 되었다.

대학생들의 솔직한 한마디, 대나무숲

익명의 토론과 제보들이 일어나는 대나무숲 페이지
  20대 초 중반 연령대의 의견으로 데이터가 편향될 것 같다는 우려가 있었지만 대학생들은 인터넷 상에서 활동이 가장 활발한 연령층이기도 하고 목적 자체가 성별 혐오에 대한 시시비비를 가리는 것이 아니라 관련 주제들에 대한 탐색이었기 때문에 결국 대학의 대나무숲에 있는 글들을 스크래핑하여 텍스트 마이닝을 진행하기로 결정했다. 그리고 많은 대학들이 대나무숲 페이지가 있었지만 좋아요 수가 많은 대학 5개만 선정하여 데이터를 수집하였다

  우선 5개 대학의 16 1월부터 7월까지의 데이터를 R 스크래핑하여 분석을 시작했다. 수집된 약 15000개의 글을 다시 "남혐", "여혐", "메갈", "일베" 등의 20개 키워드를 포함한 성별 간 혐오 관련 주제로 보이는 글로 간추려 보니 322개의 글이 최종적으로 분석 대상이 되었다.

간단한 통계로 알아본 글들
  우선 알아보고 싶었던 것은 대학생들의 이러한 주제들에 대한 관심도였다. 따라서 성별 혐오 관련 주제글과 이를 포함한 모든 글의 "좋아요" "공유" 수를 평균 내어 비교해 보았다. 확실히 해당 주제들에 대해 대학생들이 더 많이 반응하고 있는 것을 확인할 수 있었다.


  다음으로는 주제들에 대한 상대적인 관심도 차이를 확인해보기 위해 단어 수를 카운팅 하여 워드 클라우드로 시각화해 보았다. 이를 위해 R에서 사용할 수 있는 한국어 자연어 처리 패키지인 KoNLP를 이용하여 전체 글에서 명사들만 추출하였다. 자연어 처리에 앞서 페이스 북 글과 주제들에 맞는 단어장 추가와 불용어 처리 등의 전처리 과정이 수행되었다이렇게 추출된 명사들의 개수를 카운팅 하여 그 비중에 따라 워드클라우드를 만들어보니 다음과 같은 그림이 나왔다.

단어 출현빈도를 나타내는 워드클라우드

 여자, 남자와 같이 상대방의 성별을 가리키는 단어들이 가장 빈번히 출현하는 것을 볼 수 있었고 그 뒤를 이어 혐오사회, 사건, 문제 같은 단어들이 보였다. 이는 "남혐", "여혐"이라는 주제들이 사회적 측면의 문제로 인식되어 공론화되고 있다는 것을 추측해 볼 수 있는 부분이다. 그리고 아무래도 강남역 사건의 여파 때문인지 강남역, 피해자, 가해자 등 관련 단어들이 많이 언급되는 것을 볼 수 있었다.

댓글 없음:

댓글 쓰기