남준다 이야기/박사과정 공부중

    남준다 2009. 5. 18. 17:35

    1. 요인분석의 정의

    요인분석은 여러 변인간의 관계성이나 패턴을 파악하고 변인들이 갖고 있는 정보를 잠재된 적은 수의 구조로 축약하거나 요약하기 위해 사용하는 통계기법이다. 따라서 요인분석에서 기본적인 접근방법은 고도의 상관관계를 갖는 변수들이 하나의 공통적인 개념에 도달한다는 논리를 근거로 하며, 요인분석은 상관관계를 갖는 변수들을 선형결합에 의해 새로운 합성변수(요인)으로 결합한다.

    - 공통인자를 찾아내는 방법이기 때문에 독립변인이나 종속변인의 구분이 없다.

    요인분석의 조건

    1) 수 : 2 개 이상 여러 개

    2) 측정 : 등간척도 또는 비율척도

     

    2. 요인분석의 목적

    요인분석은 변수들간의 상관관계(interdependence)를 이용하여 서로 유사한 변수들끼리 묶어주는 방법이다. 상관관계가 높은 변수들끼리 동질적인 몇 개의 집단으로 묶어준다는 점에서 다음과 같은 목적에 사용된다.

    ① 일련의 변수집합들 속에 내재해 있는 몇개의 공통된 요인을 밝혀내고 변수들내에 존재하는 상호독립적 차원을 발견하는 데 이용된다.

    예를 들면 신문구독자들이 정기구독할 신문을 결정할 때 어떠한 요인들을 고려하는가를 알아보려고 하는 경우가 이에 해당된다. 이 경우 우선 응답자들에게 신문 정기구독 결정시 고려하리라고 예상되는 신문의 가격, 명성, 기사내용 등 수십개의 항목을 제시하여 주고 각 항목에 대하여 중요도를 평가하게 한다. 그리고 평가한 자료를 이용하여 요인분석을 실시함으로써 수십개의 항목들을 몇가지 동질적인 개념(요인)으로 묶어낸다.

    Box의 예시와 같은 요인분석방식을 R-type 요인분석이라고 하고, 이것은 자료의 요약 및 변수의 구조파악에 주로 이용된다.

    ② 대상응답자들내에 있는 상이한 특성을 갖는 개인들을 서로 동질적인 몇 개의 집단으로 나누는 데 이용된다. 이는 군집분석과 유사한 방법으로서 Q-type요인분석이라고 한다. R-type요인분석은 평가항목을 동질적인 몇 개의 집단으로 나누는 반면에, Q-type요인분석은 평가자들을 동질적인 집단으로 묶어낸다는 점에서 차이가 있다.

    ③ 회귀분석이나 측정도구의 타당성을 평가하는 데 요인분석을 사용할 수 있다. 연구자가 어떤 개념을 여러 가지 변수를 사용하여 측정했다고 할 때 자료를 이용한 요인분석 결과에서 하나의 요인으로 묶여지는 변수들은 측정의 타당성이 있다고 볼 수 있으며 그렇지 못한 변수들은 상이한 개념을 측정하는 변수로 간주하여 다음 조사에서 제거할 수 있다.

    ④ 수많은 변수에 의해서 회귀분석이나 판별분석 등 추가적인 분석을 실시할 때 다중공선성과 같은 문제가 발생하여 분석기법사용에 어려움이 많으므로 이러한 추가적인 분석을 용이하게 하기 위해 여러 개의 변수들을 소수의 새로운 요인으로 축소시키며 각각의 요인들이 독립적(orthogonal)이 되게 하기 위해 요인분석을 이용한다.

    예를 들면 특정 신문의 이미지가 구독자가 신문을 선택하는데 영향을 미치는 지를 알아보기 위해 신문 이미지를 형성하는데 관련된 모든 변수들을 이용하여 회귀분석을 시행한다면 변수의 수가 너무 많아 비효율적일 뿐 아니라 그 많은 변수 중 몇 가지 변수를 골라낸다는 것이 무의미할 수 있다. 따라서 요인분석 결과 나온 요인점수를 새로운 변수의 값으로 간주하여 회귀분석을 행하면, 분석이 용이해질 뿐 아니라 모든 변수를 사용하여 회귀분석을 행한 경우보다 의미가 있을 수 있다.

     

    3. 종류

    * 확인적 요인분석- 연역적 접근방법일 때 사용

    * 탐색적 요인분석- 귀납적 접근방법일 때 사용

    ☞ 요약: 아직 많은 연구가 이루어지지 않은 분야에서는 구성개념을 도출해 내기 위한 연구라면 탐색적 요인분석을 수행하라. 그리고 나서 어느 정도 요인의 차원이 타당하게 산출될 때까지 변인들을 더하거나 빼라. 이러한 과정을 반복하여 만족할 만한 요인이 산출되었다면 확인적 요인분석을 통해 탐색적 요인분석의 결과가 타당한지를 확인하라.

     

    4. 수행 단계

    1단계- 분석목적의 확립/ 분석할 변인의 선정

    2단계- 상관관계의 계산/ 누락치 검사

    3단계- 요인모델의 결정(주성분 모델 혹은 공통요인 모델)

    4단계- 요인의 추출

    5단계- 비회전 최초 요인부하량의 추출

    6단계- 요인의 회전파 회전 후의 요인부하랑 산출

    7단계- 요인의 해석

    8단계- 추후분석을 위한 요인점수의 산출

     

    5. 사용 목적

    요인분석의 일반적인 목적은 많은 수의 본래변수(original variables)들이 갖고 있는 근본적인 의미를 가급적 보존하면서 그들을 보다 적은 수의 새로운 합성변수(요인)로 요약하기 위한 선형결합식을 찾아내는 것인데, 구체적으로는 다음과 같은 네 가지 기능을 수행한다.

    첫째, 많은 수의 본래변수들이 갖고 있는 근본적인 의미를 최대한 보존하면서 그들을 보다 적은 수의 합성변수(요인)로 요약하기 위한 선형결합식을 상술한다. 이러한 형태의 요인분석을 R-type 요인분석이라고 한다.

    둘째, 많은 수의 대상들을 유사성을 기준으로 하여 수개의 집단으로 집군화한다. 이러한 형태의 요인분석을 Q-type 요인분석이라고 한다.

    셋째, 많은 수의 본래변수들로부터 추후에 수행할 회귀분석이나 상관분석, 판별분석 등에 포함시킬 보다 적절한 변수를 선별해 준다.

    넷째, 많은 수의 본래변수를 합성변수(요인)로 요약함으로써 추후에 수행할 회귀분석이나 상관분석, 판별분석 등에 포함시킬 보다 적은 수의 변수를 창출한다. 더욱이 이러한 합성변수들은 다중공선성이 제거되어 상호독립적이므로 독립변수로서 동시에 이용될 수 있다. 또한 선형결합식을 통해 변수의 수를 감소시키므로 전체 자료를 축소시켜 분석결과의 해석과 관리를 용이하게 한다.

    따라서 조사자는 요인분석을 조사목적에 따라 요인해석만으로 분석을 종결하든가 또는 요인점수들을 계산하고 다른 통계적 기법들을 사용하기 위한 분석을 계속할 수 있다. 즉 조사자의 목적이 단순히 변수들이나 분석대상들의 논리적인 집합을 확인하는 것이라면(첫번째와 두번째 목적), 단지 요인부하의 추정만으로도 충분할 것이다. 또한 조사자의 목적이 다른 통계적 기법에 투입할 적절한 변수들을 선별해 내는 것이라면(세번째 목적) 특정한 요인상에서 최대의 요인부하를 갖는 변수들을 확인하기 위하여 요인부하들을 검토해야 할 것이다. 만일 조사자의 목적이 본래의 변수집합을 대체하여 이어지는 통계적 분석에 포함시킬 완전히 새로운 소수의 변수들을 창출하여 전체자료를 축소하는 것이라면(네번째 목적) 각 요인들에 대하여 요인점수를 계산하여 회귀분석이나 판별분석, 상관분석에서 새로운 투입자료로 이용하게 된다.

     

    6. 기본 가정

    1) 표본크기는 최소한 200사례 이상이어야 한다.

    2) 다변량 정상성을 따라야 한다.

    3) 변인들의 모든 쌍이 선형적인 관계에 있는지 파악하라

    4) 지나찬 다중 공선성을 파악하라

    5) 표본의 상관행렬이 요인분석될 수 있는지 파악하라.

     

    7. 요인분석의 제한점

    요인분석은 요인수의 결정, 요인의 해석, 축회전의 선택 등이 모두 대단히 주관적이라는 한계점을 갖고 있으며, 요인분석에는 통계적 검증이 없기 때문에 분석결과의 유의성을 검증할 수 없다. 따라서 표본을 분할하여 요인분석을 적용할 때 동일한 요인이 산출될 경우에나 그러한 결과가 우연히 나타나지 않은 것이라는 확신을 가질 수 있다.

    서로 상관계수가 높은 변수들끼리 모아서 작은 수의 변수집단으로 구분한 것이다.

    각 변수와 요인간의 상관관계의 정도를 나타낸다. 그러므로 각 변수들의 요인적재치가 자장 높은 요인에 속하게 된다. 요인적재치가 어느 정도 커야 하는가에 대한 일반적인 기준은 보통 0.3 이상이면 유의하다고 보지만 보수적인 기준은 0.4 이상이다. 그리고 0.5이상인 경우는 매우 높은 유의성을 가진 것으로 본다. 적재치의 유의성은 표본의 수, 변수의 수 및 요인의 수 등에 따라 변동된다. 즉 변수들과 요인 사이의 상관계수로서, 요인적재량의 제곱은 해당변수가 요인에 의하여 설명되는 분산의 비율을 나타낸다.

    요인들은 변수들의 계수(혹은 적재치)를 곱한 합으로 표현되며 이 계수 혹은 적재치의 행렬을 가리킨다. 행은 변수에 열은 요인에 대응하는 적재치이다. 직교회전이므로 요인간 상관관계는 '0'이 된다. 즉 각 요인들에 대한 모든 변수들의 요인적재량의 행렬이다.

    요인분석에서 공통요인들에 의해 설명되어지는 변수의 분산비율을 말한다. 변수에 대한 모든 요인적재치를 제곱하여 합한 것이 공통성이다. 요인적재치의 제곱은 결정계수가 되므로 공통성은 결국 추출된 요인들에 의해 설명되는 특정 변수의 분산이 된다. 따라서 여러 요인에 의하여 설명될 수 있는 한 변수의 분산 양을 백분율로 나타낸 것으로, 추출된 요인들이 각각의 변수를 어느정도 설명하는지를 측정하며 이를 통해 요인분석의 적합성 여부를 판단한다.

    각각의 요인으로 설명할 수 있는 변수들의 분산의 총합으로 각 요인별로 모든 변수의 요인적재량을 제곱하여 더한 값이다. 즉 변수의 정보(분산)가 어떤 요인에 의해 어느 정도 표현되는지를 나타내주는 비율이다. 먼저 추출된 요인의 고유값은 항상 다음에 추출되는 요인의 고유값보다 크다.

    요인패턴행렬은 요인들이 직교인 경우이나 직교가 아닌 경우에도 해당된다. 행은 변수에 열은 요인에 대응하는 적재치 이다.

    잘보고 갑니다.
    배우고 가요
    깔끔하게 정말 잘 배우고 갑니다. 감사합니다~
    정말 감사합니다... 숫자만 나와있는 통계책 보다 훨씬 간결하게 정리 잘해주셨네요