1. 선형 회귀 모형(linear regression)
1.1 선형 회귀 모형이란
•
선형 회귀 모형이란 독립 변수 에서 종속 변수 를 예측하기 위한 방법의 하나로,
독립 변수 벡터 와 가중치 벡터 의 가중합으로 와 가장 비슷한 값 을 계산
1.2 잔차
•
선형 회귀 분석의 결과는 가중치 벡터 로 나타나고 예측치는 이 가중치 벡터를 사용한 벡터 의 가중합 가됨
•
잔차(residual) 혹은 오차(error): 예측치 와 실제값(target) 의 차이
1.3 잔차 제곱합(RSS: residual sum of squares)
•
잔차의 크기는 잔차 벡터의 잔차제곱합을 이용하여 구하며, 로 나타냄
2. 연립방정식과 역행렬
그렇다면 가중치 벡터 는 어떻게 구하는가? 연립방정식과 (의사)역행렬을 이용해 선형 예측 모형의 가중치 벡터를 구하는 방법을 알아보자.
2.1 선형 연립 방정식(system of linear equations)
•
선형연립 방정식: 이라는 개의 미지수를 가지는 개의 선형 방정식
•
행렬을 사용하면 아래와 같이 간단하게 표현할 수 있음
◦
: 계수행렬(coefficient matrix)
◦
: 미지수벡터(unknown vector)
◦
: 상수벡터(constant vector)
2.2 역행렬
•
역행렬(): 정방행렬 A에 대해 다음 관계를 만족하는 정방 행렬 (는 단위 행렬)
•
역행렬의 성질 ( 모두 역행렬이 존재한다고 가정)
◦
전치 행렬의 역행렬은 역행렬의 전치 행렬과 같다. 따라서 대칭 행렬의 역행렬도 대칭 행렬이다.
◦
두 개 이상의 정방 행렬의 곱은 같은 크기의 정방 행렬이 되는데, 이러한 행렬의 곱의 역행렬은 다음 성질이 성립한다.
◦
역행렬은 행렬식이 0이 아닌 경우에만 존재한다.
2.3 역행렬과 선형 연립 방정식의 해
•
행렬 의 역행렬이 존재한다면 선형 연립 방정식의 해는 다음과 같이 구함
•
역행렬이 존재할 때만 (행렬식이 0이 아닌 경우에만) 구할 수 있음
2.4 최소 자승 문제 (Least Square Problem)
미지수의 수와 방정식의 수를 고려한 연립 방정식의 종류
1.
방정식의 수와 미지수의 수가 같음 ()
•
정방행렬의 경우
2.
방정식의 수 < 미지수의 수 ()
•
무수히 많은 해가 존재할 수 있음
3.
방정식의 수 > 미지수의 수 ()
•
해가 존재하지 않을 수 있음
최소 자승 문제
•
데이터 분석에서는 대부분 큰 데이터를 다루게 되므로 3번의 경우가 일반적이기때문에 정확한 해를 구할 수 없음
•
아무런 답도 구할 수 없는 것 보다는 좌변과 우변을 가장 비슷하게라도 만들어주는 수를 구하는 것이 좋음
•
따라서 잔차의 크기를 최소화하는 문제로 바꾸어 풀어야 함
이는 잔차 벡터의 크기, 즉 놈을 최소화하는 것과 같음
의사 역행렬(pseudo inverse)
•
전치행렬을 원래 행렬에 곱해주면 정방행렬 형태가 됨 ( or )
•
이를 이용해 최소 자승 문제를 다음과 같이 의사 역행렬 로 풀 수 있음
•
의사 역행렬:
참고 자료