Phương pháp thống kê xây dựng mô hình định mức tín nhiệm khách hàng thể nhân
Mô hình định mức tín nhiệm thể nhân được đặt ra cách đây 50 năm nhằm xây dựng phương pháp lượng hóa khả năng thanh toán và mức độ tín nhiệm của khách hàng trong giao dịch. Công tác này giúp ngân hàng và các tổ chức tín dụng quyết định có hay không cung cấp các dịch vụ cho khách hàng.
Phương Pháp Th ng Kê Xây D ng Mô Hình Đ nh
M c Tín Nhi m Khách Hàng Th Nhân
Vương Quân Hoàng∗ Đào Gia Hưng† Nguy n Văn H u‡
, , ,
§ ¶
Tr n Minh Ng c, Lê H ng Phương
Ngày 10 tháng 5 năm 2006
Tóm t t n i dung
In this paper, we consider the problem of credit scoring for personal
customer. The main statistical tools used to establish credit scoring sys-
tem are theory of classification and discrimination. Our method is illus-
trated on the credit customer dataset of a Trade Bank.
1 Gi i thi u
Mô hình đ nh m c tín nhi m th nhân đư c đ t ra cách đây 50 năm nh m xây
d ng phương pháp lư ng hoá kh năng thanh toán và m c đ tín nhi m c a
khách hàng trong giao d ch. Công tác này giúp các ngân hàng và t ch c tín
d ng quy t đ nh có hay không cung c p các d ch v cho khách hàng. L i ích
c a mô hình đem l i r t rõ nét, n i b t là gi m thi u chi phí phân tích thông
tin (nh t là khi s lư ng ngư i s d ng các d nh v ngân hàng ngày càng l n);
giúp đưa ra quy t đ nh nhanh chóng, chính xác và khách quan; gi m thi u r i
ro tín d ng, đ m b o t i đa vi c thu h i tài chính.
M t trong các phương pháp ti p c n mô hình đ nh m c tín nhi m khách
hàng là gi i quy t bài toán phân tích phân bi t, nh n bi t hay là x p m t cá
th vào m t trong các nhóm khách hàng mà có s khác nhau tương đ i gi a
các nhóm. Bài toán phân nhóm m t t p h p đư c Fisher gi i thi u l n đ u
tiên vào năm 1936 khi ti n hành phân lo i đ c tính cây Irit d a trên s li u v
kích thư c bên ngoài c a cây. David Duran (1941) là ngư i đ u tiên ng d ng
∗
Email: [email protected]; Centre Emile Bernheim, ULB, 21 F.D.Roosevelt, B-1050,
Bruxelles
†
Ngân hàng Techcombank
‡
Email:[email protected]; Khoa Toán-cơ-tin h c, trư ng Đ i h c KHTN, ĐH QGHN
§
Email:[email protected]; Khoa Toán-cơ-tin h c, trư ng Đ i h c KHTN, ĐH QGHN
¶
Email:[email protected]; Khoa Toán-cơ-tin h c, trư ng Đ i h c KHTN, ĐH QGHN
1
2
phương pháp đó vào vi c phân bi t các kho n n t t và kho n n x u. Sau đó
nhi u công ty tín d ng đã xây d ng các hình th c sơ khai c a h th ng đ nh
m c tín nhi m th nhân d a trên các nguyên lý th ng kê, và các h th ng này
đã nhanh chóng t rõ s c m nh c a nó trong vi c giúp các t ch c tín d ng
ra quy t đ nh. S ki n đánh d u t m quan tr ng c a mô hình đ nh m c tín
nhi m th nhân là vi c thông qua đ o lu t Cơ H i Tín D ng Ngang B ng
M năm 1975-1976, n i dung ch y u c a đ o lu t này là c m s phân bi t
đ i x trong vi c c p tín d ng tr khi nó đư c ch ng minh trên cơ s th ng
kê.
Có th hình dung mô hình như sau. M i khách hàng đ n giao d ch xin c p
tín d ng s đư c yêu c u cung c p các thông tin b n thân. Thông tin là m t
vector k-chi u (k d u hi u) X = (X1, ..., Xk) bao g m các d u hi u như tu i
tác, trình đ h c v n, m c thu nh p, tình tr ng hôn nhân, chênh l ch thu chi,
dư n hi n t i,... Và phương pháp chúng tôi đ xu t (g i là phương pháp I)
gi i quy t bài toán đ nh m c tín nhi m th nhân s bao g m các bài toán
1. Xác đ nh các d u hi u nên đưa vào đ l y thông tin v khách hàng, nên
hay không nên đưa vào d u hi u nào?
2. Xây d ng thang đi m cho các d u hi u.
3. T m u N khách hàng, phân chia thành các nhóm, ch ng h n "t t",
"t t v a", "x u",.. Đây chính là n i dung c a bài toán phân lo i.
4. V i m t khách hàng X, xây d ng quy t c ra quy t đ nh x p X vào nhóm
nào? Và đây chính là n i dung c a bài toán phân tích phân bi t.
Chú ý. Ngoài phương pháp trên, chúng ta có th xét phương pháp khác (s
g i là phương pháp II), mà khác cơ b n phương pháp trên như sau: Bài toán
1 và 2 như trên và
3’. Xác đ nh tr ng s cho m i d u hi u, tr ng s này đ c trưng cho t m
quan tr ng c a d u hi u đó đ i v i kh năng thanh toán c a khách hàng.
Gi s βl là tr ng s c a d u hi u Xl, và n u g i s(X) là hàm đi m tín
d ng c a khách hàng X = (X1, ..., Xk) thì
s(X) = β1X1 + ... + βk Xk .
4’. Xây d ng mô hình ra quy t đ nh tín d ng d a trên hàm đi m tín d ng
s(X).
V i bài toán 1, yêu c u đ u tiên v các d u hi u đưa vào là các d u hi u
không tương quan v i nhau, sau đó là yêu c u đưa vào các d u hi u sao cho
đ c trưng đư c nhi u nh t thông tin v kh năng tín d ng c a khách hàng.
3
Sau cùng có th tính đ n các yêu c u như các d u hi u đó giúp khách hàng
d tr l i, ngân hàng d ch ng th c tính đúng đ n,... Ví d t i ngân hàng
Techcombank các d u hi u đư c đưa vào như: tu i tác, trình đ h c v n, lo i
hình công vi c, m c thu nh p, chênh l ch thu chi, tình tr ng hôn nhân, s
ngư i s ng ph thu c, nơi cư trú, th i gian cư trú, phương ti n đi l i, phương
ti n thông tin, uy tín trong giao d ch, quan h v i Techcombank, dư n ,...
Bài toán th 2 s r t quan tr ng n u chúng ta xét phương pháp II b i
nó nh hư ng r t nhi u đ n hàm đi m tín d ng s(X) và nó đòi h i nhi u k
thu t ph c t p trong vi c l p thang đi m cho m i d u hi u. Tuy nhiên v i
phương pháp I, bài toán này có l không đòi h i các k thu t tinh t l m, b i
ta ch c n xác đ nh thang đi m sao cho d n đ n s khác nhau tương đ i gi a
các nhóm khách hàng mà s đư c phân l p trong bài toán 3.
Trong các bài toán đư c đ t ra trên có th nói bài toán 3 và bài toán 4
là quan tr ng nh t và cũng ph c t p nh t. Trong bài báo này chúng tôi t p
trung gi i quy t hai bài toán đó.
C u trúc bài báo như sau. M c 2 gi i quy t bài toán 3, bài toán phân l p
khách hàng. M c 3 trình bày l i gi i bài toán 4: xây d ng quy t c đánh giá
m c tín nhi m khách hàng. M c 4 trình bày các k t qu tính toán t d li u
các khách hàng c a ngân hàng Techcombank cùng v i m t vài nh n xét và
bình lu n.
2 Phân l p khách hàng
Xét m t m u g m N khách hàng (cá th ), khách hàng th i có vector d u
hi u là X (i) = (Xi1 , ..., Xik), i = 1, ..., N.
Vi c phân nhóm các cá th s đư c th c hi n d a trên khái ni m kho ng
cách đo s khác nhau gi a các cá th , ta s ký hi u d(i, j) là kho ng cách gi a
cá th th i và th j d a trên d u hi u X (i), X (j) tương ng. Có nhi u đ nh
nghĩa cho kho ng cách gi a các cá th , thư ng s d ng các kho ng cách sau:
Kho ng cách Euclide
k 1/2
2
d1 (i, j) = (Xil − Xjl ) .
l=1
Kho ng cách th ng kê
1/2
d2 (i, j) = (X (i) − X (j))A(X (i) − X (j))T
trong đó A là m t ma tr n đ i x ng xác d nh dương c p N , và thư ng đư c
ch n là S −1 v i S là ma tr n hi p phương sai m u.
4
Kho ng cách đ nh tính
1
d3(i, j) =
1 + s(i, j)
trong đó
k
l=1 Xil δ(Xil − Xjl)
s(i, j) = k k
,
l=1 Xil δ(Xil − Xjl ) + l=1 (1 − δ(Xil − Xjl ))
v i δ(x − y) = 1 n u x = y và 0 n u x = y, là h s tương t đo s g n nhau
c a cá th i và j.
Nh n xét. Kho ng cách d1, d2 thư ng đư c dùng đ tính toán cho các d u
hi u đ nh lư ng, còn d3 đư c dùng v i các d u hi u đ nh tính. N u vector các
d u hi u khách hàng X (i) bao g m c các d u hi u đ nh lư ng và đ nh tính
thì kho ng cách s là t ng c a hai kho ng cách đ nh lư ng và đ nh tính.
Ta ký hi u
D = (d(i, j))i,j=1,...,N
là ma tr n kho ng cách. Có nhi u phương pháp phân l p d a trên ma tr n
kho ng cách D, như phương pháp phân l p theo th b c, phương pháp K-
trung bình. Theo kinh nghi m c a chúng tôi, trong trư ng h p này nên dùng
phương pháp K-trung bình, khi đó các nhóm k t qu nh n đư c s khác nhau
tương đ i v b n ch t, đ c trưng cho các nhóm khách hàng "t t", "x u".
Phương pháp K-trung bình đư c J. B. MacQueen đưa ra năm 1967. Thu t
toán có 3 bư c
1. Phân chia (ng u nhiên) các cá th vào K nhóm.
2. Tính tâm c a t ng nhóm. Phân ph i l i các cá th : x p m t cá th vào
nhóm có tâm g n nó nh t. Có nhi u khái ni m tâm c a nhóm, và thư ng
là vector trung bình các d u hi u c a nhóm, còn kho ng cách thư ng
dùng là kho ng cách Euclide.
3. L p l i bư c 2 cho đ n khi không còn s phân ph i l i các cá th .
M t v n đ đ t ra là khi nào hai l p đư c xem là đ khác nhau? Hay nói
cách khác, chúng ta c n ph i th c hi n bài toán ki m đ nh s khác nhau gi a
các l p. Xét hai l p A và B v i các cá th c a l p A là
(xj1 , ..., xjk), j = 1, ..., n1
và các cá th c a l p B là
(yj1 , ..., yjk), j = 1, ..., n2.
5
G i X, Y l n lư t là tâm c a nhóm A và B:
X = (x1, ..., xk ), Y = (y 1, ..., yk )
trong đó
n1 n2
1 1
xl = xjl , y l = yjl , l = 1, ..., k.
n1 n2
j=1 j=1
Đ t
(1) (2)
S (1) = (sij )i,j=1,...,k , S (2) = (sij )i,j=1,...,k
l n lư t là ma tr n hi p phương sai m u c a hai nhóm, trong đó
n1 n2
(1) 1 (2) 1
sij = xil xjl − xi xj , sij = yil yjl − y i y j .
n1 n2
l=1 l=1
Xét kho ng cách Hotelling đư c đ nh nghĩa b i
T 2 = (X − Y )T S −1 (X − Y )
trong đó
1
S= [n1S (1) + n2 S (2)].
n1 + n 2
Ngư i ta ch ng minh đư c r ng n u hai nhóm A, B là m t nhóm thì khi n1 , n2
l n T 2 s có phân ph i x p x phân ph i χ2 v i k b c t do. T đó ta có quy
t c sau: N u T 2 > χ2 (α) thì hai l p A, B đư c coi là tách bi t nhau
k
m t cách có ý nghĩa.
3 Phân bi t khách hàng
D a trên k t qu phân l p trong m c trên, trong m c này chúng tôi gi i quy t
bài toán ti p theo: V i m t khách hàng có vector d u hi u x, xây d ng quy
t c x p nhóm cho khách hàng đó. Chúng tôi trình bày hai phương pháp gi i
quy t bài toán đó trong hai m c tương ng, M c 3.1 và M c 3.2.
3.1 Phương pháp h i quy v i bi n ph thu c nh nguyên
Gi s t p các khách hàng đư c đánh s 1, 2, . . ., N đã đư c phân chia
thành 2 nhóm A và B. D u hi u Xl nh n giá tr trong t p h u h n El =
{el1 , el2, . . . , elml }, l = 1, ..., k. Nhóm A g m các khách hàng “t t”, nhóm B
g m các khách hàng “không t t”. Đ t
s cá th thu c nhóm A
π=
N
6
là t l khách hàng thu c nhóm A; 1 − π là t l khách hàng thu c nhóm B.
Ta có th dùng bi n Z đ đ c trưng cho khách hàng thu c nhóm A ho c
nhóm B:
1, n u khách hàng thu c nhóm A,
Z=
0, n u khách hàng thu c nhóm B.
Như v y khách hàng th i s có đ c trưng là Zi v i
1, n u i ∈ A,
Zi =
0, n u i ∈ B.
Gi s x = (x1, x2, . . . , xk ) là véc-tơ d u hi u c a m t khách hàng. Ta c n
tính xác su t sau:
P (Z = 1|X = x) := P (x), (1)
đây là xác su t khách hàng có vector d u hi u x thu c nhóm A.
Ta có công th c sau
P (Z = 1).P (X = x|cá th thu c nhóm A)
P (x) =
P (X = x)
πP (X = x|A)
= , (2)
πP (X = x|A) + (1 − π)P (X = x|B)
trong đó kí hi u
P (X = x|A) = P (X = x|cá th thu c nhóm A).
Có
P (Z = 0|X = x) = 1 − P (x).
Ta mong mu n ư c lư ng xác su t P (x) d a trên m u (Zi, X (i)), i = 1, 2, . . ., N .
V i các d u hi u có giá tr đư c phân thành t ng kho ng (categorical vari-
ables), ngư i ta th y r ng P (x) có d ng
k
P (x) = 1 − F (−β T x), v i βT x = βi xi , (3)
i=1
trong đó F (y) là hàm phân b xác su t nào đó, β = (β1, . . . , βk )T là các tham
s ph i ư c lư ng.
Xét mô hình h i quy phi tuy n sau đây:
Zi = 1 − F (−β T X (i)) + i , i = 1, 2, . . . , N, (4)
trong đó i là sai s ng u nhiên v i E i = 0.
7
Có th coi (4) là mô hình th c nghi m c a mô hình lí thuy t sau đây :
Z = 1 − F (−β T X) + , E = 0.
Do đó
E(Z|X) = P (Z = 1|X) = 1 − F (−β T X).
Ta s ư c lư ng véc-tơ β b ng phương pháp h p lí c c đ i, t c tìm β sao cho
N
log L(β) := Zi log(1 − F (−β T X (i))) + (1 − Zi ) log F (−β T X (i)) (5)
i=1
đ t giá tr c c đ i.
Các hàm phân b sau đây thư ng đư c dùng trong (4) và (5):
x
1 2 /2
• Hàm phân b chu n F (x) = √ e−t dt
2π −∞
ex
• Hàm phân b logistic F (x) =
1 + ex
• Hàm phân b Weibul F (x) = exp(− exp(−x)).
Trong công trình này, chúng tôi s d ng F là hàm phân b logistic vì nó thích
h p v i các bi n r i r c (categorical variables).
Sau khi tìm đư c ư c lư ng β c a β ta thu đư c
P (x) = 1 − F (−xT β), (6)
và
i = Zi − P (X (i)), i = 1, 2, . . ., N (7)
là các ph n dư.
Gi s m t ph n t m i có véc-tơ d u hi u là X, khi đó ta gán cá th đó
vào l p A n u P (x) > 0.5 và vào l p B n u P (x) ≤ 0.5.
M i nhóm A và B l i có th phân thành các nhóm con, ví d theo quy t c
sau: Gán ph n t có d u hi u X vào
• l p A1 n u P (x) > 0.8
• l p A2 n u 0.65 < P (x) ≤ 0.8
• l p A3 n u 0.5 < P (x) ≤ 0.65
• l p B1 n u 0.35 < P (x) ≤ 0.5
• l p B2 n u 0.2 < P (x) ≤ 0.35
8
• l p B3 n u 0 < P (x) ≤ 0.2
Đ đánh giá hi u năng c a quy t c phân bi t khách hàng, ta tính các đ i
lư ng sau
• T l phân bi t đúng
– T l cá th thu c l p B v i P (X (i)) ≤ 0.5
– T l cá th thu c l p A v i P (X (i)) > 0.5
• S trung bình các cá th phân bi t đúng
– S trung bình các cá th thu c l p B có P (X (i)) ≤ 0.5
– S trung bình cá th thu c l p A v i P (X (i)) > 0.5
Ta c n v đ th các ph n dư i và ki m tra xem các ph n dư có tương
quan hay không.
Đ đánh giá s góp ph n c a các bi n vào xác su t P (x) = 1 − F (−β T x),
ta chú ý r ng n u f (x) = F (x) là hàm m t đ c a hàm phân b F (x) thì
∂P
= f (−β T x)βi . (8)
∂xi
Như v y, n u βi > 0 thì xi góp ph n làm tăng P (x) khi xi tăng. Ngư c l i,
n u βi < 0 thì xi góp ph n làm gi m P (x) khi xi tăng.
Hơn n a, ta có
∂P/∂xi βi
= . (9)
∂P/∂xj βj
Do đó tác đ ng c a bi n xi s cao hơn tác đ ng c a bi n xj n u |βi| > |βj |.
Danh sách các đ c trưng c a m i khách hàng c a Techcombank và các k t
qu v ư c lư ng tham s β và sau đó ư c lư ng xác su t P (x) cũng như vi c
đánh giá hi u năng c a quy t c phân bi t khách hàng đư c t ng k t trong
M c 4.
3.2 Thu t toán phân bi t khách hàng v i các d u hi u đ nh
tính và đ nh lư ng
Gi s X (i) = (Xi1, . . ., Xim ) là véc-tơ d u hi u c a khách hàng th i, v i
i = 1, 2, . . ., N , trong đó có r thành ph n đ nh tính Xi1, . . . , Xir , và có m − r
thành ph n đ nh lư ng Xi,r+1 , . . . , Xim. Kí hi u l i
Y (i) = (Xi1, . . . , Xir) ∈ E1 × · · · × Er ⊂ Rr ,
Z (i) = (Xi,r+1, . . . , Xim) ∈ Rm−r = Rs ,
9
trong đó s = m − r. Như v y
X (i) = (Y (i), Z (i)).
Vì Y (i) là các d u hi u đ nh tính nên t p Ei ch g m m t s h u h n giá tr
Xi1 ∈ E1 = {e11, . . . , e1m1 }
Xi2 ∈ E2 = {e21, . . . , e2m2 }
.
.
.
Xir ∈ Er = {er1 , . . . , ermr }
Gi thi t Z (i) có phân b chu n s chi u, Z (i) ∼ Ns(µ, Σ), µ ∈ Rs ; Σ là ma tr n
xác đ nh dương c p s × s. Ta kí hi u nhóm A (nhóm khách hàng “t t”) g m
các ph n t có ch s 1, 2, . . ., M ; B (nhóm khách hàng “không t t”) g m các
ch s M + 1, . . ., N . Gi thi t r ng
• Z (i) ∼ Ns (µA , Σ) n u cá th th i ∈ A,
• Z (i) ∼ Ns (µB , Σ) n u cá th th i ∈ B.
Đ t π = M là t l s các khách hàng thu c nhóm A. Kí hi u Y = (X1, . . . , Xr )
N
là bi n ng u nhiên r i r c bao g m các d u hi u đ nh tính c a khách hàng và
Z = (Xr+1, . . . , Xm) là các d u hi u đ nh lư ng c a m i khách hàng.
G i C(1|2) là t n th t gây ra khi gán m t ph n t thu c nhóm B vào
nhóm A, C(2|1) là t n th t gây ra khi gán m t ph n t thu c nhóm A vào
nhóm B. Hai h ng s này đư c cho trư c, ch ng h n các chuyên gian ngân
hàng cho r ng C(1|2) = C(2|1).
Gi s m t khách hàng m i đ n đăng kí vay tín d ng có d u hi u là
x = (y, z), v i y ∈ E1 × · · · × Er , z ∈ Rs . Kí hi u P (Y = y|A) là xác su t
đ Y nh n giá tr y v i đi u ki n là khách hàng thu c nhóm A và f (z|Y =
y, A), f (z|Y = y, B) là m t đ xác su t c a thành ph n z c a véc-tơ d u hi u
x v i đi u ki n Y = y và khách hàng thu c nhóm A, B tương ng.
Ta gi thi t r ng f (z|Y = y, A), f (z|Y = y, B) không ph thu c y, t c là
f (z|Y = y, A) = f (z|A), f (z|Y = y, B) = f (z|B),
trong đó f (z|A) là m t đ c a phân b chu n Ns (µA , Σ) và f (z|B) là m t đ
c a phân b chu n Ns (µB , Σ).
Quy t c phân bi t khách hàng như sau : Gán cá th có d u hi u x = (y, z)
vào nhóm A khi và ch khi
πP (Y = y|A) f (Z|A) C(1|2)
≥ . (10)
(1 − π)P (Y = y|B) f (Z|B) C(2|1)
10
Vì πP (Y = y|A), (1 − π)P (Y = y|B), f (z|A), f (z|B) là các hàm chưa bi t
nên ta ph i ư c lư ng chúng b ng cách sau đây.
Đ t P (y) = P (cá th ∈ A|Y = y). 1 − P (y) = P (cá th ∈ B|Y = y).
Theo công th c xác su t h u nghi m
πP (Y = y|A)
P (y) = (11)
πP (Y = y|A) + (1 − π)P (Y = y|B)
Đ i v i các xác su t h u nghi m c a bi n ng u nhiên đ nh tính, ngư i ta hay
dùng phân b logistic :
exp(β0 + β1y1 + · · · + βr yr )
P (y) ≈
1 + exp(β0 + β1 y1 + · · · + βr yr )
ho c
P (y) πP (Y = y|A)
u := ln = ln ≈ β 0 + β 1 y1 + · · · + β r yr , (12)
1 − P (y) (1 − π)P (Y = y|B)
t c là ta có quan h h i quy tuy n tính
u = β 0 + β 1 y1 + · · · + β r yr . (13)
Đ có các s li u th c nghi m dùng đ ư c lư ng các h s βi , i = 0, 1, . . ., r,
ta ti n hành như sau:
S d ng h i quy phi tuy n v i bi n ph thu c nh nguyên đ nh n đư c
các ư c lư ng βi , i = 0, 1, . . ., r và sau đó ư c lư ng P (y) c a phân b h u
nghi m P (y) (xem (6)), và t đó ta nh n đư c ư c lư ng
u(y) = β0 + β1 y1 + · · · + βr yr . (14)
Đ t
f (z|A) 1
L(z) = ln = (µA − µB )T Σ−1 z − (µA − µB )T Σ−1 (µA + µB ).
f (z|B) 2
Đ i lư ng này đư c ư c lư ng b i
1
L(z) = (µA − µB )T S −1 z − (µA − µB )T S −1 (µA + µB ), (15)
2
11
trong đó
M N
1 1
µA = Z (i) , µB = Z (i) , (16)
M N −M
i=1 i=M +1
M
1 T
SA = Z (i) Z (i) − µT µA ,
A
M
i=1
N
1 T
SB = Z (i) Z (i) − µT µB ,
B
N−M
i=M +1
1
S= [M SA + (N − M )SB ]. (17)
N−2
Như v y, quy t c phân bi t là : Gán ph n t có d u hi u x = (y, z) vào
nhóm A khi và ch khi
C(1|2)
u(y) + L(z) > ln , (18)
C(2|1)
trong đó u(y) cho b i (14), L(z) cho b i (15).
4 K t qu th c hi n
4.1 K t qu phân l p
Ngân hàng Techcombank lưu d li u c a 1727 khách hàng, m i khách hàng
trong m u này có các đ c trưng đư c cho trong b ng 1.
V i lý thuy t và thu t toán đư c trình bày trong M c 2, chúng tôi th c
hi n tính toán trên ph n m m máy tính và đư c k t qu sau: N = 1728
khách hàng đư c chia thành 2 nhóm: nhóm A (nhóm khách hàng "t t") có
m = 1375 khách hàng, nhóm B (nhóm khách hàng "x u") có n = 353 khách
hàng. Kho ng cách Holtelling tính đư c là
2
TA,B = 27, 30209
trong khi đó χ2 (0.05) = 26, 296. Như v y TA,B > χ2 (0.05) nên hai nhóm A,
16
2
16
B là khác nhau m t cách có ý nghĩa.
4.2 Các h s h i quy
B ng 2 là k t qu th c hi n h i quy nh nguyên logistic trên t p m u.
12
Ký hi u ý nghĩa
X01 Tu i tác
X02 Trình đ h c v n
X03 Lo i hình công vi c
X04 Th i gian công tác
X05 M c thu nh p hàng tháng
X06 Tình tr ng hôn nhân
X07 Nơi cư trú
X08 Th i gian cư trú
X09 S ngư i s ng ph thu c
X10 Phương ti n đi l i
X11 Phương ti n thông tin
X12 Chênh l ch thu nh p và chi tiêu
X13 Giá tr tài s n khách hàng
X14 Giá tr các kho n n
X15 Quan h v i Techcombank
X16 Uy tín trong giao d ch
B ng 1: Các đ c trưng c a khách hàng
4.3 Nh n xét
Ta có m t s nh n xét v xác su t P (x).
1. Theo b ng 2, ta có
Tx
eβ
P (x) =
1 + eβ T x
trong đó
β T x = −1.238151x1 − 0.591102x2 − 1.371960x3 + 3.240103x5
− 1.833702x6 − 8.070600x7 − 5.336831x8 − 1.091686x9 − 1.508460x10
−18.28262x11 +5.670182x12 +3.595030x13 −0.930329x14 −1.482391x15
2. T b ng 3, n u v i quy t c phân bi t khách hàng là “Gán khách hàng có
d u hi u x vào nhóm A khi và ch khi P (x) > 0.5” thì t l khách hàng
đư c phân bi t đúng trong m u 1727 khách hàng là 99.25%, đó là t l
r t cao.
3. T b ng 4, n u coi khách hàng có d u hi u x s thu c vào nhóm A1 n u
P (x) > 0.8 thì trong s 1727 khách đ n Techcombank có 1374 khách,
chi m 99.2% khách hàng c a nhóm A.
13
Variable Coefficient Std. Error z-Statistic Prob.
X01 -1.238151 0.547258 -2.262462 0.0237
X02 -0.591102 0.459765 -1.285661 0.1986
X03 -1.371960 0.816572 -1.680147 0.0929
X05 3.240103 0.829665 3.905315 0.0001
X06 -1.833702 0.767204 -2.390109 0.0168
X07 -8.070600 2.204372 -3.661180 0.0003
X08 -5.336831 1.517704 -3.516385 0.0004
X09 -1.091686 0.478159 -2.283102 0.0224
X10 -1.508460 0.636312 -2.370628 0.0178
X11 -18.28262 4.599995 -3.974486 0.0001
X12 5.670182 1.227062 4.620942 0.0000
X13 3.595030 0.832310 4.319343 0.0000
X14 -0.930329 0.429528 -2.165932 0.0303
X15 -1.482391 0.798689 -1.856030 0.0634
Mean dependent var 0.795599 S.D. dependent var 0.403380
S.E. of regression 0.069900 Akaike info criterion 0.045790
Sum squared resid 8.369664 Schwarz criterion 0.090005
Log likelihood -25.53993 Hannan-Quinn criter. 0.062146
Avg. log likelihood -0.014789
Obs with Dep=0 353 Total obs 1727
Obs with Dep=1 1374
B ng 2: Các h s h i quy v i bi n ph thu c nh nguyên
4. T b ng 5, có kho ng 339 khách hàng thu c nhóm B2 và B3 , chi m
96.03% t ng s khách hàng thu c nhóm B.
5. N u ta ch s d ng 1300 khách hàng trong s 1374 khách hàng c a nhóm
A và 326 khách hàng trong s 355 khách hàng c a nhóm B, s còn l i
dùng đ ki m tra hi u năng c a thu t toán, thì ta thu đư c k t qu như
B ng 6.
6. Ph n dư i, i = 1, 2, . . ., 1727 t ra g n như là sai s ng u nhiên.
7. Trong mô hình h i quy v i bi n ph thu c nh phân, ta đã lo i 2 bi n
X4 (th i gian công tác) và X16 (uy tín trong giao d ch) ra kh i mô hình
vì hai lí do sau:
• X4, X16 có s ph thu c tuy n tính v i các bi n khác
• Các ư c lư ng β4, β16 trong mô hình 16 bi n t ra không n đ nh.
14
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
P (Dep = 1) ≤ C 346 6 352 0 0 0
P (Dep = 1) > C 7 1368 1375 353 1374 1727
Total 353 1374 1727 353 1374 1727
Correct 346 1368 1714 0 1374 1374
% Correct 98.02 99.56 99.25 0.00 100.00 79.56
% Incorrect 1.98 0.44 0.75 100.00 0.00 20.44
Total Gain* 98.02 -0.44 19.69
Percent Gain** 98.02 NA 96.32
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
E(# of Dep = 0) 344.45 7.57 352.01 72.15 280.85 353.00
E(# of Dep=1) 8.55 1366.43 1374.99 280.85 1093.15 1374.00
Total 353.00 1374.00 1727.00 353.00 1374.00 1727.00
Correct 344.45 1366.43 1710.88 72.15 1093.15 1165.31
% Correct 97.58 99.45 99.07 20.44 79.56 67.48
% Incorrect 2.42 0.55 0.93 79.56 20.44 32.52
Total Gain* 77.14 19.89 31.59
Percent Gain** 96.95 97.31 97.13
*Change in “% Correct” from default (constant probability) specification
**Percent of incorrect (default) prediction corrected by equation
B ng 3: Prediction Evaluation (success cutoff C = 0.5)
8. Do t p m u g m 1727 khách hàng đã đư c ph c v b i Techcombank
chưa đ l n và đã đư c ch n l a nên hai nhóm A, B phân bi t khá rõ.
N u ta m r ng t p m u thì có th k t qu không còn đư c hi u qu
như trư c. B ng 7 là k t qu th c hi n thu t toán phân nhóm v i d
li u vào chính là t p m u. Ta có nh n xét r ng h u h t s khách hàng
t t thu c nhóm A1 (nhóm t t nh t), và h u h t s khách hàng không
t t thu c nhóm B3 (nhóm x u nh t).
Tài li u
[1] Báo cáo Giai đo n I Nghiên c u kh o sát lý thuy t và th c ti n đánh giá
tín d ng th nhân, EMISCOM R&D.
[2] Nguy n Văn H u, Nguy n H u Dư, Phân tích th ng kê và d báo, NXB
Đ i h c Qu c gia HN, 2003.
15
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
P (Dep = 1) ≤ C 351 11 362 353 1374 1727
P (Dep = 1) > C 2 1363 1365 0 0 0
Total 353 1374 1727 353 1374 1727
Correct 351 1363 1714 353 0 353
% Correct 99.43 99.20 99.25 100.00 0.00 20.44
% Incorrect 0.57 0.80 0.75 0.00 100.00 79.56
Total Gain* -0.57 99.20 78.81
Percent Gain** NA 99.20 99.05
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
E(# of Dep = 0) 344.45 7.57 352.01 72.15 280.85 353.00
E(# of Dep=1) 8.55 1366.43 1374.99 280.85 1093.15 1374.00
Total 353.00 1374.00 1727.00 353.00 1374.00 1727.00
Correct 344.45 1366.43 1710.88 72.15 1093.15 1165.31
% Correct 97.58 99.45 99.07 20.44 79.56 67.48
% Incorrect 2.42 0.55 0.93 79.56 20.44 32.52
Total Gain* 77.14 19.89 31.59
Percent Gain** 96.95 97.31 97.13
*Change in “% Correct” from default (constant probability) specification
**Percent of incorrect (default) prediction corrected by equation
B ng 4: Prediction Evaluation (success cutoff C = 0.8)
[3] A. Aggarawal, Categorical data analysis, Wiley, New York, 1990. 1.2.1
[4] H.T. Albright, Construction of a polynomial classifier for consumer loan
applications using genetic algorithms, Department of Systems En- gineer-
ing, University of Virginia, 1994. 1.2.3
[5] F. Black and M. Scholes, The pricing of options and corporate liabilities.
Journal of Pocitical Economy, 81:637-654, 1973. 1
[6] M. Boyle, J.N. Crook, R. Hamilton, and L.C. Thomas, Credit scoring and
credit control, chapter Methods for credit scroing applied to slow payers,
pages 75-90. Oxford University Press, Oxford, 1992. 1, 1.2.2
[7] L. Breiman, J.H. Friedman, R.A Olshen, and C.J. Stone, Classification
and regression trees, Wadsworth, Belmont, CA, 1984. 1.2.2
[8] N. Capon, Credit scoring systems: a critical analysis, Journal of Mar-
keting, 46:82-91, 1982. 1.2.1
16
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
P (Dep = 1) ≤ C 339 3 342 0 0 0
P (Dep = 1) > C 14 1371 1385 353 1374 1727
Total 353 1374 1727 353 1374 1727
Correct 339 1371 1710 0 1374 1374
% Correct 96.03 99.78 99.02 0.00 100.00 79.56
% Incorrect 3.97 0.22 0.98 100.00 0.00 20.44
Total Gain* 96.03 -0.22 19.46
Percent Gain** 96.03 NA 95.18
Estimated Equation Constant Probability
Dep=0 Dep=1 Total Dep=0 Dep=1 Total
E(# of Dep = 0) 344.45 7.57 352.01 72.15 280.85 353.00
E(# of Dep=1) 8.55 1366.43 1374.99 280.85 1093.15 1374.00
Total 353.00 1374.00 1727.00 353.00 1374.00 1727.00
Correct 344.45 1366.43 1710.88 72.15 1093.15 1165.31
% Correct 97.58 99.45 99.07 20.44 79.56 67.48
% Incorrect 2.42 0.55 0.93 79.56 20.44 32.52
Total Gain* 77.14 19.89 31.59
Percent Gain** 96.95 97.31 97.13
*Change in “% Correct” from default (constant probability) specification
**Percent of incorrect (default) prediction corrected by equation
B ng 5: Prediction Evaluation (success cutoff C = 0.3)
[9] C. Carter and J. Catlett, Assessing credit card applications using ma-
chine learning, IEEE Expert, 2:71-79, 1987. 1.2.2
[10] R. A. Jonhson, D. W. Wichern, Applied Multivariate Statistical Analysis,
1998.
[11] Credit Scoring and Credit Control, Edited by L.C. Thomas, J.N. Crook,
D.B. Edelman, 1992.
17
S khách hàng v i Z = 0 S khách hàng v i Z = 1
P (Z = 1) ≤ 0.5 2 74
P (Z = 1) > 0.5 27 0
T l đúng 27/29 74/74
T l sai 2/29 0
B ng 6: Hi u năng c a thu t toán
L p S khách hàng
A1 1365
A2 5
A3 5
B1 7
B2 6
B3 339
T ng 1727
B ng 7: K t qu phân nhóm trên t p m u
Hình 1: Residual – Actual – Fitted graph
18
Autocorrelation Partial Correlation AC PAC Q-Stat Prob
|* | |* | 1 0.084 0.084 9.9237 0.002
| | | | 2 0.015 0.009 10.263 0.006
| | | | 3 0.016 0.014 10.637 0.014
| | | | 4 0.021 0.019 11.279 0.024
| | | | 5 0.014 0.010 11.539 0.042
| | | | 6 0.036 0.034 13.382 0.037
| | | | 7 0.045 0.039 16.292 0.023
| | | | 8 0.030 0.022 17.609 0.024
| | | | 9 0.031 0.025 19.019 0.025
| | | | 10 0.036 0.029 20.882 0.022
|* | |* | 11 0.146 0.139 51.269 0.000
| | | | 12 0.011 -0.016 51.431 0.000
| | | | 13 0.014 0.008 51.720 0.000
| | | | 14 0.026 0.017 52.660 0.000
| | | | 15 0.012 0.001 52.883 0.000
| | | | 16 0.045 0.039 55.847 0.000
| | | | 17 0.061 0.043 61.167 0.000
| | | | 18 0.022 0.000 61.870 0.000
| | | | 19 0.003 -0.009 61.881 0.000
| | | | 20 0.030 0.019 63.153 0.000
|* | |* | 21 0.090 0.078 74.695 0.000
| | | | 22 0.051 0.015 78.415 0.000
| | | | 23 0.047 0.037 81.644 0.000
| | | | 24 0.014 -0.003 81.927 0.000
| | | | 25 0.005 -0.009 81.961 0.000
| | | | 26 0.010 0.004 82.118 0.000
| | | | 27 0.013 -0.008 82.360 0.000
| | | | 28 0.002 -0.022 82.365 0.000
| | | | 29 0.034 0.025 84.088 0.000
| | | | 30 0.016 0.002 84.465 0.000
| | | | 31 0.055 0.040 88.776 0.000
| | | | 32 0.013 -0.022 89.024 0.000
| | | | 33 0.024 0.011 89.882 0.000
| | | | 34 0.016 -0.003 90.243 0.000
| | | | 35 0.008 0.001 90.331 0.000
| | | | 36 0.009 0.005 90.453 0.000
B ng 8: Correlogram of standardized residuals