컴퓨터강좌 마지막회

자료분석에 이용되는 통계패키지

Ⅰ. 서론

정보화 시대로 일컬어지는 현대를 사는 우리는 많은 양의 정보를 접하면서 살고 있다. 정보를 크게 문자적인 정보와 숫자적인 정보로 나누어 볼 수 있는데 그 중 숫자적인 정보를 통계자료라 말할 수 있겠다.

이러한 많은 양의 정보는 합당한 정보처리과정을 통하여 실생활에 도움을 줄 수 있는 형태로 만들어지듯이 숫자적인 정보, 즉 통계자료도 적절한 처리과정을 통하여 많은 수치들이 가지고 있는 내용을 직접 사용할 수 있는 형태로 만들 수 있다. 숫자적인 정보의 처리과정은 흔히 통계자료분석이라고 표현될 수 있으며, 적절한 처리과정은 적절한 분석도구나 분석모형이라고 말할 수 있다.

우리가 살아가는 유기적 조직의 다양함은 바로 통계자료가 생성될 수 있는 과정의 다양함을 말하여 준다고 할 수 있겠다. 통계자료란 그 생성과정이 이처럼 다양하기 때문에 어느 한 통계자료에서 찾아 볼 수 있는 특징을 다른 통계자료에서는 찾아 볼 수 없는 경우가 허다하다.

예를 들어서 고교생의 국어성적과 영어성적간에 차이가 있느냐하는 문제를 점검한다고 할 때 어느 지역의 고교생 중에서 확률표본을 뽑아서 각 학생의 국어성적과 영어성적을 관찰하게 될 것이다. 그리고 국어성적의 (표본)평균과 영어성적의 (표본)평균을 비교하여 두 표본평균간에 차이가 크면 지역 고교생의 두 과목 성적간에는 차이가 있다고 결론을 내리게 될 것이다.

그러면 두 표본평균간의 차이가 얼마나 커야지 그러한 결론을 내릴 수 있기에 충분한가하는 문제가 대두되고 바로 이런 문제를 해결하기 위하여 통계적 분석모형이 필요한 것이다. 여러명 학생들의 국어성적과 영어성적을 관찰하는 것은 각각의 학생으로부터 두 과목 성적을 동시에 관찰하는 것이고 어느 한 학생의 국어성적과 영어성적은 말할 나위도 없이 같은 학생으로부터 생성되는 것이다.

즉 이 두 과목의 성적은 같은 학생으로부터 생성되기 때문에 이 두 과목간에 아무런 관계가 없이 서로 독립적이라고 말 할 수 없게 된다. 이러한 특징을 가지고 있는 자료를 흔히 짝을 이룬 자료(paired data)라고 표현하게 되는데 가령 방금 언급한 예 이외에도 오른쪽 눈의 시력과 왼쪽 눈의 시력은 짝을 이룬 자료의 좋은 예가 된다.

컴퓨터의 대중화는 통계자료가 생성되는 과정에서 수반되는 통계적 분석도구의 복잡한 수식과 시간소요 및 실용화의 어려움을 해소하여주었으며 이론적으로 도출된 공식을 계산해주는 것은 물론 시뮬레이션을 통하여 이론적으로 도출이 어려운 특성까지도 부분적으로 밝혀주고있다.

Ⅱ. 통계분석에 사용되는 SPSS

컴퓨터의 대중화 추세와 함께 통계자료 분석에 대한 컴퓨터의 이용이 늘어나면서 통계전문가들과 컴퓨터과학의 전문가들이 합작으로 통계자료 분석모형들을 각각 부프로그램으로 만들어 놓았으며 이러한 부 프로그램들의 집합체를 통계패키지(Statistical package)라고 브르고 있다. 이러한 통계패키지들은 다분히 상품의 성질을 지니고 있기 때문에 대부분이 컴퓨터의 비전문가들인 일반인들도 쉽게 사용할 수 있도록 만들어지고 있다.

현재 대학이나 연구소에서 많이 사용하고 있는 대형 컴퓨터용의 통계패키지로서는 BMDP(Biomedical Package), Minital, SPSS, SAS(Statistical Analysis System)등이 있으나, 우리나라의 경우는 SPSS가 가장 널리 보급되어 있다.

SPSS란 The Staistical Package for the Social Science의 약자이다. 이것은 현재 가장 널리 사용되는 통계패키지로써 1965년에 스탠포드(Stanford)대학교의 정치학과와 정치학연구소에서 교육과 연구용으로 사용하기 위하여 개발이 시작되었으며, 1970년에 당시 시카고대학교의 국민여론연구소(National Opinion Research Center)에 근무하던 나이(Norman H. Nie)와 그의 동료들에 의해서 첫판이 상품화되어 나왔다.

주어진 통계자료에 대한 분석모형이 일단 설정이 되었으면 통계자료와 분석모형을 SPSS자체의 언어를 사용하여 프로그램 본문(source program)으로 작성하고 컴퓨터에 입력시켜야 할 것이다. 프로그램 본문을 작성하는 과정에서 SPSS의 언어와 익숙해질 수 있으며, 이 프로그램 본문을 입력시키는 과정은 컴퓨터의 단말기나 천공카드를 이용하여 프로그램 본문의 글자 하나하나를 직접 타자하여서 컴퓨터의 보조기억장치로 보내는 과정이라고 말할 수 있다.

SPSS는 다음과 같은 특성을 가지고 있다. 첫째, 5000개의 변수들에 대하여 분석이 가능하다. 둘째, 분석가능한 사례의 수는 거의 무한정이다. 세째, 자료의 변환이 가능하다. 네째, 변수들과 변수값들에 대한 label이 가능하다. 다섯째, 누락되거나(missing) 불완전한(incomplete) 자료에 대한 처리가 가능하다. 여섯째, 자료의 선정(data sampling)이 가능하다. 여덟째, 자료에 대한 가중치부여(data weighting)가 가능하다.

이러한 특성을 가진 SPSS는 다음과 같은 자료분석을 수행 할 수 있다.

단일기술통제량(univariate deseriptive statistics), 단일빈도분포표(univariate frequency tables), t검증(T-test), 「피어슨」상관, 편상관(partial correlation), 비모수상관, 비모수검증, 회귀분석, 분산 및 공분산분석, 신뢰성검증, 「리포트」작성등을 수행할 수 있다.

Ⅲ. 맺음말

본교 전자계산소에서는 금년부터 SPSS등의 패키지 및 소프트웨어를 구입하여 교수 연구지원, 학생실습 및 학사행정업무를 효율적으로 운영할 수 있게 할 예정이다.

정해덕(전산소·교육연구원)

충대신문 news@cnu.ac.kr

상단영역

본문영역

컴퓨터강좌 마지막회

자료분석에 이용되는 통계패키지

개의 댓글

댓글 정렬

내 댓글 모음