VẤN ĐỀ GÁN NHÃN TỪ LOẠI CHO VĂN BẢN TIẾNG VIỆT
Một trong các vấn đề nền tảng của phân tích ngôn ngữ là việc phân loại các từ thành các lớp từ loại dựa theo thực tiễn hoạt động của ngôn ngữ.
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
SỬ DỤNG BỘ GÁN NHÃN TỪ LOẠI XÁC SUẤT QTAG
CHO VĂN BẢN TIẾNG VIỆT
A case study of the probabilistic tagger QTAG
for Tagging Vietnamese Texts
Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương
Tóm tắt
Trong bài báo này chúng tôi trình bày chi tiết các thử nghiệm về gán nhãn từ loại cho các
văn bản tiếng Việt bằng cách áp dụng bộ gán nhãn QTAG, một bộ gán nhãn xác suất độc lập với
ngôn ngữ. Chúng tôi sử dụng hai bộ nhãn từ loại với độ mịn khác nhau. Việc gán nhãn tự động
dựa trên một bộ từ vựng có thông tin từ loại cho mỗi từ và một tập văn bản đã được gán nhãn
bằng tay. Chúng tôi cũng trình bày khâu tiền xử lí cho việc gán nhãn: phân tách các đơn vị từ
trong văn bản.
Từ khoá: từ loại, từ vựng, kho văn bản, phân tách từ, gán nhãn xác suất, QTAG
Abstract
In this paper we describe in detail our experiments on tagging Vietnamese texts using
QTAG, a language independent probabilistic tagger with two part-of-speech (POS) sets at two
different levels of finesse, based on a lexicon with information about possible POS tags for each
word and a manually labeled corpus. We also describe the pre-processing for POS tagging,
saying text tokenization.
Keywords: POS, lexicon, corpus, tokenization, probabilistic tagging,QTAG
1. GIỚI THIỆU hợp tiếng nói, các hệ thống nhận dạng tiếng
nói cũng như trong các hệ thống dịch máy.
Một trong các vấn đề nền tảng của
phân tích ngôn ngữ là việc phân loại các từ Đối với các văn bản Việt ngữ, việc gán
thành các lớp từ loại dựa theo thực tiễn hoạt nhãn từ loại có nhiều khó khăn, đặc biệt là
động ngôn ngữ. Mỗi từ loại tương ứng với bản thân việc phân loại từ tiếng Việt cho đến
một hình thái và một vai trò ngữ pháp nhất nay vẫn là một vấn đề còn nhiều tranh cãi,
định. Các bộ chú thích từ loại có thể thay đổi chưa có một chuẩn mực thống nhất [3], [5],
tuỳ theo quan niệm về đơn vị từ vựng và [8], [13], [18]. Nghiên cứu của nhóm chúng
thông tin ngôn ngữ cần khai thác trong các tôi phục vụ đồng thời hai mục đích: một mặt
ứng dụng cụ thể [19]. Mỗi từ trong một ngôn thực hiện nỗ lực nhằm xây dựng các công cụ
ngữ nói chung có thể gắn với nhiều từ loại, cho việc xử lí văn bản tiếng Việt trên máy
và việc giải thích đúng nghĩa một từ phụ tính phục vụ cho các ứng dụng công nghệ,
thuộc vào việc nó được xác định đúng từ mặt khác các công cụ này cũng hỗ trợ tích
loại hay không. Công việc gán nhãn từ loại cực cho các nhà ngôn ngữ nghiên cứu tiếng
cho một văn bản là xác định từ loại của mỗi Việt.
từ trong phạm vi văn bản đó. Khi hệ thống
Trong báo cáo này chúng tôi sẽ trình
văn bản đã được gán nhãn, hay nói cách
bày phương pháp tiếp cận và kết quả thu
khác là đã được chú thích từ loại thì nó sẽ
được của nhóm nghiên cứu trong bước thử
được ứng dụng rộng rãi trong các hệ thống
nghiệm đầu tiên với một công cụ gán nhãn
tìm kiếm thông tin, trong các ứng dụng tổng
tự động thuần tuý xác suất.
1
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
2. BÀI TOÁN GÁN NHÃN TỪ LOẠI Về mặt ngữ liệu, các phương pháp
phân tích từ loại thông dụng hiện nay dùng
Trong phần này chúng tôi giới thiệu
một trong các loại tài nguyên ngôn ngữ sau:
tổng quan về các kĩ thuật gán nhãn từ loại và
các bước giải quyết bài toán gán nhãn từ loại - Từ điển và các văn phạm loại bỏ nhập
cho văn bản tiếng Việt. nhằng [14].
Quá trình gán nhãn từ loại có thể chia - Kho văn bản đã gán nhãn [4], có thể
làm 3 bước [15]. kèm theo các quy tắc ngữ pháp xây
dựng bằng tay [2].
- Phân tách xâu kí tự thành chuỗi các từ.
Giai đoạn này có thể đơn giản hay phức - Kho văn bản chưa gán nhãn, có kèm
tạp tuỳ theo ngôn ngữ và quan niệm về theo các thông tin ngôn ngữ như là tập
đơn vị từ vựng. Chẳng hạn đối với tiếng từ loại và các thông tin mô tả quan hệ
Anh hay tiếng Pháp, việc phân tách từ giữa từ loại và hậu tố [10].
phần lớn là dựa vào các kí hiệu trắng.
- Kho văn bản chưa gán nhãn, với tập từ
Tuy nhiên vẫn có những từ ghép hay
loại cũng được xây dựng tự động nhờ
những cụm từ công cụ gây tranh cãi về
các tính toán thống kê [11]. Trong
cách xử lí. Trong khi đó với tiếng Việt
trường hợp này khó có thể dự đoán
thì dấu trắng càng không phải là dấu
trước về tập từ loại.
hiệu để xác định ranh giới các đơn vị từ
vựng do tần số xuất hiện từ ghép rất cao. Các bộ gán nhãn từ loại dùng từ điển
và văn phạm gần giống với một bộ phân tích
- Gán nhãn tiên nghiệm, tức là tìm cho
cú pháp. Các hệ thống học sử dụng kho văn
mỗi từ tập tất cả các nhãn từ loại mà nó
bản để học cách đoán nhận từ loại cho mỗi
có thể có. Tập nhãn này có thể thu được
từ [1]. Từ giữa những năm 1980 các hệ
từ cơ sở dữ liệu từ điển hoặc kho văn
thống này được triển khai rộng rãi vì việc
bản đã gán nhãn bằng tay. Đối với một
xây dựng kho văn bản mẫu ít tốn kém hơn
từ mới chưa xuất hiện trong cơ sở ngữ
nhiều so với việc xây dựng một từ điển chất
liệu thì có thể dùng một nhãn ngầm định
lượng cao và một bộ quy tắc ngữ pháp đầy
hoặc gắn cho nó tập tất cả các nhãn.
đủ. Một số hệ thống sử dụng đồng thời từ
Trong các ngôn ngữ biến đổi hình thái
điển để liệt kê các từ loại có thể cho một từ,
người ta cũng dựa vào hình thái từ để
và một kho văn bản mẫu để loại bỏ nhập
đoán nhận lớp từ loại tương ứng của từ
nhằng. Bộ gán nhãn của chúng tôi nằm trong
đang xét.
số các hệ thống này.
- Quyết định kết quả gán nhãn, đó là giai
Các bộ gán nhãn thường được đánh giá
đoạn loại bỏ nhập nhằng, tức là lựa chọn
bằng độ chính xác của kết quả: [số từ được
cho mỗi từ một nhãn phù hợp nhất với
gán nhãn đúng] / [tổng số từ trong văn bản].
ngữ cảnh trong tập nhãn tiên nghiệm. Có
Các bộ gán nhãn tốt nhất hiện nay có độ
nhiều phương pháp để thực hiện việc
chính xác đạt tới 98% [15].
này, trong đó người ta phân biệt chủ yếu
các phương pháp dựa vào quy tắc ngữ Nghiên cứu áp dụng cho vấn đề tự
pháp mà đại diện nổi bật là phương pháp động gán nhãn từ loại tiếng Việt, nhóm
Brill ([2]) và các phương pháp xác suất chúng tôi đã thực hiện các bước cụ thể sau:
([4]). Ngoài ra còn có các hệ thống sử 1. Xây dựng từ điển từ vựng, lựa chọn tiêu
dụng mạng nơ-ron ([16]), các hệ thống chí xác định từ loại trong quá trình phân
lai sử dụng kết hợp tính toán xác suất và tích từ vựng. Hầu hết các mục từ trong
ràng buộc ngữ pháp [6], gán nhãn nhiều từ điển đều có thông tin từ loại đi kèm.
tầng [17].
2
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
2. Xây dựng công cụ phân tách các đơn vị này, quan điểm về việc thu thập từ vựng, về
từ vựng trong văn bản. chuẩn hoá chính tả, về chú thích từ loại là rõ
ràng và thống nhất.
3. Xây dựng kho văn bản đã loại bỏ nhập
nhằng từ loại bằng tay, sau khi tự động Ngoài ra, chúng tôi có đưa thêm các
gán tất cả các nhãn có thể cho mỗi từ. đơn vị từ vựng ít dùng, gặp trong kho văn
bản nhưng không được thu thập trong từ
4. Xây dựng bộ gán nhãn từ loại tự động,
điển vào Từ điển từ vựng. Mặt khác, chúng
dựa trên các thông tin từ loại trong từ
tôi cũng đưa thêm các đơn vị từ vựng mới
điển từ vựng và các quy tắc kết hợp từ
xuất hiện (mà từ điển chưa thu thập) vào Từ
loại học được từ kho văn bản đã gán
điển từ vựng cùng với những đơn vị là tên
nhãn mẫu.
người, tên địa danh, tên tổ chức thường gặp
Trong phần tiếp theo của báo cáo, để tiện cho chương trình xử lí.
chúng tôi sẽ lần lượt trình bày các bước 1, 2
Chính tả trong [7] “theo đúng các Quy
và 4.
định về chính tả tiếng Việt và về thuật ngữ
3. XÂY DỰNG TỪ ĐIỂN TỪ VỰNG, tiếng Việt trong các sách giáo khoa, được
XÁC ĐỊNH BỘ CHÚ THÍCH TỪ ban hành theo Quyết định số 240/QĐ ngày
LOẠI TIẾNG VIỆT 5-3-1984 của Bộ trưởng Bộ Giáo dục”
Trong khuôn khổ đề tài cấp Nhà nước (chẳng hạn vấn đề viết nguyên âm "-i", viết
KC01 "Nghiên cứu phát triển công nghệ "-uy", cách ghi dấu thanh, cách viết thuật
nhận dạng, tổng hợp và xử lí ngôn ngữ tiếng ngữ khoa học, sử dụng con chữ f, j, w, z cho
Việt", nhóm nghiên cứu đã triển khai các các từ mượn tiếng nước ngoài, v.v.).
công việc xây dựng kho ngữ liệu tiếng Việt Trên thực tế, trong các văn bản tiếng
bao gồm từ điển từ vựng và kho văn bản có Việt vẫn không có sự thống nhất trong cách
kèm theo mô tả từ loại của các đơn vị từ ghi dấu thanh ở những âm tiết có âm đệm, vì
vựng với chất lượng cao, tuân theo các vậy mà trước khi áp dụng cho chương trình
chuẩn quốc tế về biểu diễn dữ liệu1, cho tách từ và gán nhãn từ loại, văn bản đã được
phép cập nhật và mở rộng dễ dàng. chúng tôi xử lí lại cho nhất quán với từ điển.
3.1. Từ điển từ vựng 3.2. Xây dựng bộ chú thích từ loại
Trong tiếng Việt, bên cạnh những đơn Từ loại phản ánh vị trí khác nhau của
vị rõ ràng là từ, là ngữ cố định như thành các từ trong hệ thống ngữ pháp. Để phản ánh
ngữ (sơn cùng thuỷ tận, tay xách nách được chính xác tất cả các quan hệ ngữ pháp
mang...), quán ngữ (lên lớp, lên mặt, ra vẻ), thì cần có một bộ từ loại rất lớn. Nhưng càng
còn tồn tại những đơn vị có người cho là từ, nhiều chú thích từ loại thì công việc gán
có người cho là ngữ cố định (như xe lăn nhãn càng khó khăn. Bởi vậy cần phải có
đường, máy quay đĩa, làm ruộng, lạnh ngắt, một sự thoả hiệp để đạt được một bộ chú
suy cho cùng, ...). Ranh giới của từ trong thích từ loại không quá lớn và có chất lượng.
tiếng Việt là một vấn đề phức tạp, trong
Chúng tôi chọn làm việc với hai bộ từ
nhiều trường hợp còn có những ý kiến khác
loại. Trước hết là sử dụng bộ chú thích 8 từ
nhau [8].
loại (danh từ, động từ, tính từ, đại từ, phụ từ,
Chúng tôi lựa chọn quan niệm đơn vị kết từ, trợ từ, cảm từ) được cộng đồng ngôn
từ vựng theo cuốn Từ điển tiếng Việt [7] (do ngữ học thoả hiệp tương đối, trình bày trong
Viện Ngôn Ngữ Học biên soạn) để xây dựng cuốn Ngữ pháp tiếng Việt [18] và được chú
cơ sở ngữ liệu. Trong toàn bộ cuốn từ điển thích cụ thể cho từng mục từ trong [7].
1 cf. ISO TC37/SC4 http://www.tc37sc4.org
3
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
Bộ từ loại thứ hai được xây dựng bằng 4.2. Các bước giải quyết
cách phân nhỏ mỗi từ loại trên thành các tiểu
1. Xây dựng ôtômát âm tiết đoán nhận tất
từ loại. Ban đầu chúng tôi dùng ngay cách
cả các âm tiết tiếng Việt
chia thành tiểu loại trong [18].
2. Xây dựng ôtômát từ vựng đoán nhận tất
Những chú thích từ loại được chọn như cả các từ vựng tiếng Việt.
trên sau đó được phản ánh đầy đủ trong Từ 3. Dựa trên các ôtômát nêu trên, xây dựng
điển từ vựng, làm cơ sở dữ liệu cho chương đồ thị tương ứng với câu cần phân tích
trình tự động xác định ý nghĩa danh từ, động và sử dụng thuật toán tìm kiếm trên đồ
từ..., động từ nội động hay động từ ngoại thị để liệt kê các cách phân tích có thể.
động... của mỗi từ khi phân xuất trực tiếp Bảng chữ cái của ôtômát âm tiết là
trong văn bản. Cùng với từ điển này là kho bảng chữ cái tiếng Việt, mỗi cung chuyển
văn bản đã được chúng tôi gán nhãn bằng được ghi trên đó một ký tự. Ví dụ, với ba âm
tay sau khi đã chạy chương trình tách từ và tiết phương, pháp, trình ta sẽ có ôtômát đoán
xác định tất cả các nhãn có thể tìm được nhận âm tiết như Hình 1.
trong từ điển cho mỗi từ.
Trong quá trình xác định nhãn cho từng
từ trong văn bản cụ thể, chúng tôi nhận thấy
sự cần thiết phải bổ sung thêm một số nhãn
từ loại để tránh trường hợp một từ mang
cùng một lúc nhiều nhãn từ loại (chẳng hạn
động từ ngoại động chỉ cảm nghĩ hay động
từ nội động chỉ cảm nghĩ). Như vậy quá
Hình 1. Xây dựng ôtômát âm tiết
trình xây dựng tập mẫu cũng đồng thời là
quá trình điều chỉnh việc phân chia từ loại Thuật toán xây dựng ôtômát âm tiết
hợp lí hơn. Hiện tại chúng tôi làm việc với
bộ nhãn từ loại ở mức mịn hơn gồm 47 từ Input: Từ điển âm tiết
loại và bổ sung một nhãn cho các từ chưa Output: Ôtômát âm tiết.
xác định được từ loại. Thuật toán:
1. Lập trạng thái khởi đầu q0 ;
4. PHÂN TÁCH TỪ TRONG VĂN BẢN
TIẾNG VIỆT 2. Vòng lặp đọc cho tới khi hết tệp dữ liệu,
lấy ra từng âm tiết. Gọi các ký tự của âm
4.1. Đặt bài toán. tiết đó là c0 , c1,..., cn−1.
Cho một câu tiếng Việt bất kỳ, hãy tách a. p := q0 ; i := 0;
câu đó thành những đơn vị từ vựng (từ),
hoặc chỉ ra những âm tiết nào không có b. Vòng lặp trong khi ( i ≤ n − 1 )
trong từ điển (phát hiện đơn vị từ vựng mới). i. Lấy ra ký tự ci ;
Để giải quyết bài toán đặt ra, chúng tôi ii. Tìm trong các cung chuyển từ trạng
sử dụng tập dữ liệu gồm bảng âm tiết tiếng thái p cung trên đó ghi ký tự ci .
Việt (khoảng 6700 âm tiết) và từ điển từ
vựng tiếng Việt (khoảng 30.000 từ). Các từ Nếu có cung ( p, q) như thế:
điển được lưu dưới dạng các tệp văn bản có 1. i := i + 1;
định dạng mã TCVN hoặc Unicode dựng 2. p := q;
sẵn (UTF-8). Chương trình xây dựng bằng iii. Nếu không có cung ( p, q) nào như
Java, mã nguồn mở (liên hệ nhóm tác giả).
thế thì thoát khỏi vòng lặp b.
c. Với j từ i đến n− 1
4
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
i. Tạo mới trạng thái q , ghi nhận q ii. Tìm trong các cung chuyển từ trạng
là trạng thái không kết; thái p cung trên đó ghi số mi . Nếu
ii. Thêm cung chuyển ( p, q) trên đó có cung ( p, q) như thế
ghi ký tự cj ; 1. i := i + 1;
iii. p := q; 2. p := q;
d. Ghi nhận q là trạng thái kết; iii. Nếu không có cung ( p, q) nào như
thế thì thoát khỏi vòng lặp b.
Ôtômát từ vựng được xây dựng tương
tự, với điểm khác như sau: thay vì ghi trên c. Với j từ i đến n− 1
mỗi cung chuyển một âm tiết, ta ghi số hiệu i. Tạo mới trạng thái q , ghi nhận q
của trạng thái (kết) của ôtômát âm tiết tại đó là trạng thái không kết;
đoán nhận mỗi âm tiết của từ nhằm giảm ii. Thêm cung chuyển ( p, q) trên đó
kích thước của ôtômát từ vựng. Ví dụ, với ghi số mj ;
hai từ phương pháp và phương trình, giả sử
khi đưa lần lượt các âm tiết phương, pháp, iii. p := q;
trình qua ôtômát âm tiết, ta đến được các d. Ghi nhận q là trạng thái kết
trạng thái kết ghi các số n1, n2, n3 thì trên các
cung chuyển tương ứng ta ghi các số n1, n2, Sau khi đã xây dựng xong hai ôtômát,
n3 (Hình 2). ta ghi chúng vào hai tệp định kiểu để dùng
trong bước phân tách từ vựng. Nếu mỗi ký
tự (char) được ghi vào tệp với kích thước 2
byte (mã Unicode), mỗi số nguyên (int) có
kích thước 4 byte thì tệp lưu ôtômát âm tiết
có kích thước 146KB, tệp ôtômát từ vựng có
kích thước 1MB.
Hình 2. Xây dựng ôtômát từ vựng Tư tưởng của thuật toán phân tách từ
vựng là quy việc phân tách câu về việc tìm
Thuật toán xây dựng ôtômát từ vựng đường đi trên một đồ thị có hướng, không có
trọng số.
Input: Từ điển từ vựng, ôtômát âm tiết
Output: Ôtômát từ vựng. Giả sử câu ban đầu là một dãy gồm
Thuật toán: n+1 âm tiết s0, s1, ..., sn. Ta xây dựng một đồ
1. Lập trạng thái khởi đầu q0 ; thị có n+2 đỉnh v0, v1, ..., vn, vn+1, sắp thứ tự
trên một đường thẳng từ trái sang phải; trong
2. Vòng lặp đọc cho tới khi hết tệp dữ liệu,
đó, từ đỉnh vi đến đỉnh vj có cung (i < j) nếu
lấy ra từng mục từ word. Gọi các âm tiết
các âm tiết si, si+1, ..., sj-1 theo thứ tự lập
của word là s0 , s1,..., sn−1 ; thành một từ. Khi đó mỗi cách phân tách câu
3. Sử dụng ôtômát âm tiết để đoán nhận khác nhau tương ứng với một đường đi trên
các âm tiết trên, được các số hiệu của đồ thị từ đỉnh đầu v0 đến đỉnh cuối vn+1.
trạng thái (kết) tương ứng là Trong thực tế, cách phân tích câu đúng đắn
m0 , m1,..., mn−1 nhất thường ứng với đường đi qua ít cung
nhất trên đồ thị.
a. p := q0 ; i := 0;
b. Vòng lặp trong khi ( i ≤ n − 1 ) Trong trường hợp câu có sự nhập
nhằng thì đồ thị sẽ có nhiều hơn một đường
i. Lấy ra số mi ; đi ngắn nhất từ đỉnh đầu đến đỉnh cuối, ta
liệt kê toàn bộ các đường đi ngắn nhất trên
đồ thị, từ đó đưa ra tất cả các phương án tách
5
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
câu có thể và để người dùng quyết định sẽ 1. Nó | là | một | bản | tuyên ngôn | đặc
chọn phương án nào, tuỳ thuộc vào ngữ sắc | của | chủ nghĩa nhân đạo | , một | tiếng |
nghĩa hoặc văn cảnh. Ví dụ, xét một câu có chuông | cảnh tỉnh | trước | hiểm họa | lớn lao
cụm "thuộc địa bàn", ta có đồ thị như sau | của | hành tinh | trước | sự | điên rồ | của |
(Hình 3) những | kẻ | cuồng tín
2. Trong khi | các | thành phần | tư bản
chủ nghĩa | có | những | bước | phát triển |
mạnh | hơn | thời kì | trước | thì | thế lực | của
| giai cấp | địa chủ | vẫn | không hề | suy
giảm.
Như vậy, còn một số vấn đề khó khăn
Hình 3. Một tình huống nhập nhằng cần phải tiếp tục nghiên cứu giải quyết:
Cụm này có sự nhập nhằng giữa thuộc Thứ nhất là vấn đề giải quyết nhập
địa và địa bàn và ta sẽ có hai kết quả phân nhằng phân tách. Cần phải chọn một phương
tách là "thuộc địa / bàn" và "thuộc / địa án đúng giữa nhiều phương án. Các hướng
bàn". Ta có thể chỉ ra rất nhiều những cụm tiếp cận khả thi cho vấn đề này có thể là:
nhập nhằng trong tiếng Việt, chẳng hạn "tổ - Dùng các quy tắc ngữ pháp do chuyên
hợp âm tiết", "bằng chứng cớ",... gia ngôn ngữ xây dựng. Tiến hành phân
Trường hợp trong câu có âm tiết không tích cú pháp của câu với những phương
nằm trong từ điển thì rõ ràng ôtômát âm tiết án tách từ vựng có thể, từ đó loại ra
không đoán nhận được âm tiết này. Kết quả những phương án sai cú pháp.
là đồ thị ta xây dựng từ câu đó là không liên - Dùng phương pháp xác suất - thống kê.
thông. Dựa vào tính chất này, ta thấy rằng Phải thống kê trong kho văn bản tương
nếu đồ thị không liên thông thì dễ dàng phát đối lớn của tiếng Việt để tìm ra xác suất
hiện ra rằng đơn vị âm tiết không đoán nhận của các bộ đôi hay bộ ba từ loại hoặc từ
được không nằm trong từ điển âm tiết, tức vựng đi cạnh nhau. Từ đó lựa chọn
nó bị viết sai chính tả hoặc là một đơn vị âm phương án phân tách có xác suất sai ít
tiết (từ vựng) mới. nhất.
4.3. Đánh giá kết quả Chương trình phân tích cú pháp tiếng
Với cách tiếp cận như trên, bài toán Việt chúng tôi hiện có cũng đã có khả năng
phân tách từ vựng trong câu tiếng Việt về cơ nhận biết được một số câu nhập nhằng từ
bản đã được giải quyết, đặc biệt là vấn đề vựng. Ví dụ, với câu “bản sao chụp mờ” thì
tách các tổ hợp từ tương đương với một đơn có thể có hai cách phân tích có thể là “bản |
vị từ vựng, thường là các cụm từ cố định, sao chụp” và “bản sao | chụp”, trình phân
ngữ cố định hoặc các thành ngữ trong tiếng tích nhận thấy cả hai cách tách từ này đều
Việt. Với những câu nhập vào có sự nhập đúng cú pháp và đưa ra hai cây phân tích
nhằng từ vựng, tức có nhiều hơn một cách tương ứng. Với câu “anh ấy rất thuộc địa
phân tách thì chương trình liệt kê toàn bộ bàn” thì mặc dù cụm “thuộc địa bàn” có hai
các phương án tách từ có thể và giành quyền cách phân tách từ vựng là “thuộc | địa bàn”
lựa chọn kết quả cho người sử dụng. Trong và “thuộc địa | bàn” nhưng trình phân tích
tất cả các phương án phân tách đó bao giờ chỉ đoán nhận được một và đưa ra cách phân
cũng tồn tại phương án đúng. tích tương ứng với cách tách từ đó. Do đó,
cách tách từ còn lại là sai.
Dưới đây là một số câu nhập vào và kết
quả tách từ tương ứng.
6
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
Thứ hai là vấn đề giải quyết tên riêng, Người ta đưa ra các giả thiết đơn giản
tên viết tắt và tên có nguồn gốc nước ngoài hoá cho phép thu gọn mô hình xác suất về
có mặt trong câu. Hiện tại chương trình phân một số hữu hạn các tham biến.
tách chưa nhận ra được các cụm từ dạng
Đối với mỗi P(wi | w1... wi-1, t1t2...tN),
“Nguyễn Văn A”, “Đại học Khoa học Tự
giả thiết khả năng xuất hiện một từ khi cho
nhiên”, hoặc “ĐT. 8.20.20.20”, “1.000$”,
một nhãn từ loại là hoàn toàn xác định khi
“0,05%”...
biết nhãn đó, nghĩa là P(wi | w1... wi-1,
5. THỬ NGHIỆM BỘ GÁN NHÃN t1t2...tN) = P(wi | ti).
QTAG CHO TIẾNG VIỆT
Như vậy xác suất P(w1w2... wN|t1t2...tN)
QTAG là một bộ gán nhãn như vậy, do chỉ phụ thuộc vào các xác suất cơ bản có
nhóm nghiên cứu Corpus Research thuộc dạng P(wi|ti):
trường đại học tổng hợp Birmingham phát
P(w1w2... wN | t1t2...tN) = P(w1 | t1)P(w2 |
triển, cung cấp miễn phí cho mục đích
t2) ... P(wN | tN)
nghiên cứu2. Chúng tôi đã sửa đổi phần
mềm này để thích nghi với việc thao tác trên Đối với các xác suất P(ti | t1...ti-1), giả
văn bản tiếng Việt, cũng như cho phép sử thiết khả năng xuất hiện của một từ loại là
dụng từ điển từ vựng có thông tin từ loại bên hoàn toàn xác định khi biết các nhãn từ loại
cạnh việc sử dụng kho văn bản đã gán nhãn. trong một lân cận có kích thước k cố định,
Với sự đồng ý của tác giả O. Mason, chúng nghĩa là: P(ti | t1...ti-1)= P(ti | ti-k...ti-1). Nói
tôi công bố phiên bản QTAG cho tiếng Việt chung, các bộ gán nhãn thường sử dụng giả
cùng với kho ngữ liệu (vnQTAG) tại địa chỉ: thiết k bằng 1 (bigram) hoặc 2 (trigram).
http://www.loria.fr/equipes/led/outils.php. Như vậy mô hình xác suất này tương
5.1. Phương pháp gán nhãn xác suất đương với một mô hình Markov ẩn, trong đó
các trạng thái ẩn là các nhãn từ loại (hay các
Ý tưởng của phương pháp gán nhãn từ
dãy gồm k nhãn nếu k > 1), và các trạng thái
loại xác suất là xác định phân bố xác suất
hiện (quan sát được) là các từ trong từ điển.
trong không gian kết hợp giữa dãy các từ Sw
Với một kho văn bản đã gán nhãn mẫu, các
và dãy các nhãn từ loại St. Sau khi đã có
tham số của mô hình này dễ dàng được xác
phân bố xác suất này, bài toán loại bỏ nhập
định nhờ thuật toán Viterbi.
nhằng từ loại cho một dãy các từ được đưa
về bài toán lựa chọn một dãy từ loại sao cho 5.2. Bộ gán nhãn QTAG
xác suất điều kiện P(St | Sw) kết hợp dãy từ 5.2.1 Dữ liệu mẫu
loại đó với dãy từ đã cho đạt giá trị lớn nhất.
Bộ gán nhãn QTAG là một bộ gán
Theo công thức xác suất Bayes ta có: nhãn trigram. QTAG sử dụng kết hợp hai
P(St | Sw) = P(Sw | St).P(St)/P(Sw). Ở đây dãy nguồn thông tin: một từ điển từ chứa các từ
các từ Sw đã biết, nên thực tế chỉ cần cực đại kèm theo danh sách các nhãn có thể của
hoá xác suất P(Sw | St).P(St). chúng cùng với tần suất xuất hiện tương
Với mọi dãy St = t1t2 ... tN và với mọi ứng; và một ma trận gồm các bộ ba nhãn từ
dãy Sw = w1w2 ... wN : loại có thể xuất hiện liền nhau trong văn bản
với các tần số xuất hiện của chúng. Cả hai
P(w1w2... wN | t1t2...tN) = P(w1 | t1t2...tN)
loại dữ liệu này thu được dễ dàng dựa vào
P(w2 | w1,t1t2...tN)...P(wN | w1... wN-1, t1t2...tN)
kho văn bản mẫu đã gán nhãn. Các loại dấu
P(t1t2...tN) = P(t1)P(t2 | t1) P(t3 | t1t2) ... câu và các kí hiệu khác trong văn bản được
P(tN | t1...tN-1) xử lí như các đơn vị từ vựng, với nhãn chính
là dấu câu tương ứng.
2 http://www.clg.bham.ac.uk/staff/oliver/software/tagger/
7
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
5.2.2 Thuật toán gán nhãn từ loại 5.3. Sử dụng QTAG cho tiếng Việt
Về mặt thuật toán, QTAG làm việc trên 5.3.1 Dữ liệu mẫu
một cửa sổ chứa 3 từ, sau khi đã bổ sung
Nhóm nghiên cứu ngôn ngữ của Trung
thêm 2 từ giả ở đầu và cuối văn bản. Các từ
tâm Từ điển học xây dựng cơ sở dữ liệu mẫu
được lần lượt đọc và thêm vào cửa sổ mỗi
bao gồm:
khi cửa sổ di chuyển từ trái sang phải, mỗi
lần một vị trí. Nhãn được gán cho mỗi từ đã - Từ điển từ vựng gồm 37454 mục từ, mỗi
lọt ra ngoài cửa sổ là nhãn kết quả cuối mục từ có kèm theo dãy tất cả các từ
cùng. Thủ tục gán nhãn như sau: loại mà nó có thể có, những đơn vị chưa
xác định được từ loại thì gắn nhãn X.
1. Đọc từ (token) tiếp theo
2. Tìm từ đó trong từ điển - Các văn bản thuộc một số thể loại khác
3. Nếu không tìm thấy, gán cho từ đó tất cả nhau (văn học Việt Nam/nước ngoài,
các nhãn (tag) có thể khoa học, báo chí) được gán nhãn bằng
4. Với mỗi nhãn có thể tay, bao gồm 63732 lượt từ với 48 nhãn
a. tính Pw = P(tag|token) là xác suất từ từ loại cùng với một số nhãn tương ứng
token có nhãn tag với các dấu câu và một số kí hiệu khác.
b. tính Pc = P(tag|t1,t2), là xác suất 5.3.2 Thử nghiệm
nhãn tag xuất hiện sau các nhãn t1,
t2, là nhãn tương ứng của hai từ Như đã trình bày, bộ gán nhãn QTAG
đứng trước từ token. ban đầu chỉ làm việc với một kho văn bản đã
c. tính Pw,c = Pw * Pc, kết hợp hai xác được gán nhãn mẫu để "huấn luyện" cho mô
suất trên. hình xác suất. Trong quá trình gán nhãn, nếu
5. Lặp lại phép tính cho hai nhãn khác gặp một đơn vị mới (có thể là từ, con số, các
trong cửa sổ kí hiệu toán học...) chưa thấy xuất hiện trong
tập mẫu, QTAG giả thiết đơn vị đó có thể có
Sau mỗi lần tính lại (3 lần cho mỗi từ), một nhãn từ loại bất kì nằm trong tập tất cả
các xác suất kết quả được kết hợp để cho ra các nhãn đã xuất hiện trong tập huấn luyện.
xác suất toàn thể của nhãn được gán cho từ.
Vì các giá trị này thường nhỏ, nên chúng Cơ sở dữ liệu của chúng tôi có từ điển
được tính trong biểu thức logarit cơ số 10. từ vựng độc lập nên chúng tôi đã thực hiện
Giá trị xác suất tính được cho mỗi nhãn một số thay đổi sau:
tương ứng với một từ thể hiện độ tin cậy của - Đưa vào kho từ vựng của bộ gán nhãn
phép gán nhãn này cho từ đang xét. tất cả các mục từ có trong từ điển từ
5.2.3 Thực hiện gán nhãn vựng của chúng tôi và các mục từ có
trong tập huấn luyện
Sau khi đã xây dựng từ điển từ vựng và
ma trận xác suất chuyển giữa các từ loại từ - Khi gặp một đơn vị mới trong tập văn
dữ liệu mẫu, QTAG làm việc với dữ liệu vào bản cần gán nhãn, kiểm tra nếu đơn vị
là một văn bản đã được tách từ, mỗi từ nằm đó là số hay tên riêng thì gán nhãn số
trên một dòng. Chương trình có thể in ra dãy hay tên riêng
các nhãn từ loại cùng với thông tin xác suất - Ngoài ra, một môđun đoán nhận từ loại
tương ứng cho mỗi từ trong văn bản, hoặc cho một từ mới dựa vào hậu tố của từ đó
chỉ in ra kết quả cuối cùng - nhãn có khả - không áp dụng được cho tiếng Việt -
năng xuất hiện cao nhất. cũng được lược bỏ.
Phương pháp thử nghiệm của chúng tôi
là lấy một phần kho văn bản đã gán nhãn
8
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
làm tập huấn luyện cho mô hình xác suất. trong đó: Nc - danh từ đơn thể, Vto - ngoại
Sau đó chúng tôi áp dụng mô hình này để tự động từ chỉ hướng, Nn - danh từ số lượng,
động gán nhãn cho phần các văn bản còn lại Vs - động từ tồn tại, Nu - danh từ đơn vị, Pp
rồi so sánh kết quả thu được với dữ liệu - đại từ nhân xưng, Jt - phụ từ thời gian, Vt -
mẫu. Các thử nghiệm được thực hiện đối với ngoại động từ, Nt - danh từ loại thể, Jd - phụ
2 bộ chú thích từ loại trình bày trong mục 3. từ chỉ mức độ, Aa - tính từ hàm chất.
Với mỗi mức trên chúng tôi đã thực hiện các
Kết quả thử nghiệm tốt nhất với các tập
thử nghiệm, tương ứng với các tập mẫu khác
mẫu đã xây dựng đạt tới độ chính xác ~94%
nhau về kích thước và văn phong.
đối với bộ nhãn thứ nhất (9 nhãn từ vựng và
5.3.3 Đánh giá kết quả 10 nhãn cho các loại kí hiệu), trong khi với
bộ nhãn thứ hai chỉ đạt tới ~85% (48 nhãn từ
Chương trình được cài đặt bằng ngôn
vựng và 10 nhãn cho các loại kí hiệu). Bảng
ngữ lập trình Java, chạy trong mọi môi
1 minh hoạ kết quả gán nhãn với bộ nhãn
trường, có thể dùng mã tiếng Việt Unicode
thứ nhất: tỉ lệ tương ứng trong mỗi thử
(dựng sẵn) hoặc TCVN. Mã chương trình
nghiệm là độ chính xác. Nếu không dùng
đích khoảng 16KB. Mã nguồn dễ dàng sửa
đến từ điển từ vựng (chỉ sử dụng kho văn
đổi và dùng lại. Thời gian huấn luyện hay
bản đã gán nhãn mẫu) thì các kết quả chỉ đạt
gán nhãn với ngữ liệu khoảng 32000 lượt từ
được tương ứng là ~80% và ~60%.
đều tổn khoảng 30 giây. Kết quả gán nhãn
một câu nếu chọn định dạng XML như ví dụ Kết quả của các thử nghiệm ban đầu
sau: cũng cho chúng tôi một số nhận xét sau:
hồi lên - Với kích thước tập mẫu ban đầu như
< w pos="Nn"> sáu , có lần tôi mức 2 cao hơn mức 1 khá nhiều.
đã
- Đúng như mong đợi, khi xử lí các văn
nhìn thấy một bức
lớn thì tỉ lệ lỗi càng giảm
tranh tuyệt đẹp - Tập mẫu với các văn bản có văn phong
khác nhau có ảnh hưởng tới kết quả gán
nhãn.
Bảng 1. Kết quả gán nhãn từ loại mức 1
Văn bản / Văn phong Số đơn vị từ Test 1 Test 2 Test 3 Test 4
Chuyện tình1 / Tiểu thuyết VN 16787 91,53% 89,75% tập mẫu tập mẫu
Chuyện tình2 / Tiểu thuyết VN 14698 91,78% 90,39% 94,28% 93,82%
Hoàng tử bé / Truyện nước ngoài 18663 tập mẫu 10,48% tập mẫu tập mẫu
Lược sử thời gian / Sách khoa học 11626 90,44% tập mẫu 91,42% tập mẫu
Muốii của rừng / Truyện ngắn VN 3573 90,68% 11,42% 91,04% 91,32%
Những bài học / Truyện ngắn VN 8244 91,45% 10,24% 92,90% 92,89%
Công nghệ / Báo chí 1162 88,81% 9,90% 89,24% 89,67%
Độ chính xác trung bình 91,25% 89,77% 92,70% 93,04%
gán nhãn từ loại tự động cho các văn bản
6. KẾT LUẬN
tiếng Việt. Tuy những kết quả ban đầu có độ
Trên đây chúng tôi đã trình bày một chính xác chưa thật cao, nhưng chúng hứa
phương pháp tiếp cận để giải quyết bài toán hẹn triển vọng tốt cho các nghiên cứu tiếp
9
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
theo. Với các kết quả gán nhãn thu được, 7. Hoàng Phê (chủ biên), Từ điển tiếng Việt
chúng tôi sẽ tiếp tục bổ sung kho dữ liệu 2002, Nhà xuất bản Đà Nẵng - Trung Tâm
gồm các văn bản được gán nhãn mẫu, làm Từ Điển Học.
tăng chất lượng bộ gán nhãn. Kho dữ liệu 8. Hữu Đạt, Trần Trí Dõi, Đào Thanh Lan, Cơ
này cũng đặc biệt hữu ích cho việc nghiên sở tiếng Việt, NXB Giáo dục, 1998.
cứu văn phạm tiếng Việt. Việc nghiên cứu 9. Kuipec J., "Robust Part-of-Speech Tagging
văn phạm trên cơ sở các văn bản đã gán Using a Hidden Markov Model", Computer
nhãn cũng giúp cho chúng tôi điều chỉnh bộ Speech and Language, vol. 6, 1992, p. 225-
nhãn từ loại, sao cho các từ loại đưa ra đáp 242.
ứng được tốt nhất yêu cầu thể hiện các đặc
10. Levinger M., Ornan U., Itai A., "Learning
trưng ngữ pháp của các đơn vị từ vựng. Bên
morpho-lexical probabilities from an
cạnh đó, các công cụ tự động tách từ và gán untagged corpus with an application to
nhãn từ loại tự động cũng hỗ trợ tích cực cho Hebrew", Comutational Linguistics, 21(3),
các nhà ngôn ngữ phát hiện các hiện tượng 1995, p. 383-404.
ngôn ngữ cần nghiên cứu. Với mong muốn
11. MacMahon J.G., Smith F.J., "Improving
mở rộng sự quan tâm nghiên cứu của mọi
statistical language model performance with
người, chúng tôi sẵn sàng cung cấp tất cả automatically generated word hierarchies",
các tài nguyên và công cụ đã xây dựng trong Computational Linguistics, 19(2), 1993, p.
cộng đồng nghiên cứu xử lí tiếng Việt. 313-330.
TÀI LIỆU THAM KHẢO 12. Mason O., Tufis D., "Tagging Romanian
1. Abney S., "Part-of-Speech Tagging and Texts: a Case Study for QTAG, a Language
Independent Probabilistic Tagger", 1st
Partial Parsing", in Young S. and Bloothooft
(Eds), Corpus-Based Methods in Language International Conference on Language
and Speech processing, Kluwer Academic Ressources and Evaluation (LREC98),
Granada (Spain), 28-30 May 1998, p. 589-
Publishers, Dodreht (The Netherlands),
1997. 596.
2. Brill E., "Transformation-Based Error- 13. Nguyễn Tài Cẩn, Ngữ pháp tiếng Việt, NXB
Đại học Quốc gia Hà Nội, 1998.
Driven Learning and Natural Language
Processing: A Case Study in Part of Speech 14. Oflazer K., "Error-tolenrant finite-state
Tagging", Computational Linguistics, 21(4), recognition with applications to
December 199, p.543-565. morphological analysis and spelling
3. Cao Xuân Hạo, Tiếng Việt - mấy vấn đề ngữ correction", Computational Linguistics,
22(1), 1996, p. 73-89.
âm, ngữ pháp, ngữ nghĩa, NXB Giáo dục,
2000. 15. Paroubek P., Rajman M., "Etiquetage
4. Dermatas E., Kokkinakis G., "Automatic morpho-syntaxique", Ingénierie des langues,
chapitre 5, Hermes Science Europe, 2000.
Stochastic Tagging of Natural Language
Texts", Computational Linguistics 21.2, 16. Schmid H., "Part-of-Speech Tagging with
1995, p. 137 - 163. Neural networks", International Conference
on Computational Linguistics, Japan, 1994,
5. Diệp Quang Ban, Hoàng Văn Thung, Ngữ
pháp tiếng Việt (2 tập), NXB Giáo dục, p. 172-176, Kyoto.
1999. 17. Tufis D., "Tiered Tagging and combined
classifier", In Jelineck F. and Nörth E. (Eds),
6. El-Bèze M, Spriet T., "Etiquetage
probabiliste et contraintes syntaxiques", Text, Speech and Dialogue, Lecture Notes in
Actes de la conférence sur le Traitement Artificial Intelligence 1692, Springer, 1999.
Automatique du Langage Naturel (TALN95), 18. Uỷ ban khoa học xã hội Việt Nam, Ngữ
Marseille, France,14-16/6/1995. pháp tiếng Việt, NXB Khoa học Xã hội, Hà
nội, 1993.
10
Kỷ yếu Hội thảo ICT.rda’03 Proceedings of ICT.rda'03. Hanoi Feb. 22-23, 2003
19. Vergnes J., Giguet E., "Regards théoriques Hà Nội, đồng thời theo học lớp dự bị tiếng Pháp cho
sur le tagging", 5e conférence sur le khoá Cao học Tin học ở IFI Hà Nội. Lĩnh vực nghiên
Traitement Automatique du Langage Naturel cứu quan tâm là xử lí ngôn ngữ tự nhiên.
(TALN98), Paris, 10-12 juin, 1998. E-mail: [email protected]
Về các tác giả
Thạc sĩ Nguyễn Thị Minh
Huyền tốt nghiệp Đại học
Tổng hợp Hà Nội ngành
Tin học năm 1994, nhận
bằng Thạc sĩ Tin học tại
Đại học Henri Poincaré
(CH Pháp) năm 1999. ThS.
NTM Huyền công tác tại
Khoa Toán - Cơ - Tin học
thuộc Trường Đại học Khoa học Tự nhiên, ĐH Quốc gia
Hà Nội từ năm 1994 đến nay. Hiện ThS. NTM Huyền
đang làm nghiên cứu sinh ngành Tin học tại Đại học
Henri Poincaré (CH Pháp). Th.S NTM Huyền đang
quan tâm nghiên cứu về các vấn đề xử lí tự động kho
văn bản đơn ngữ và đa ngữ trong lĩnh vực xử lí ngôn
ngữ tự nhiên.
E-mail: [email protected]
Nghiên cứu viên Vũ Xuân
Lương tốt nghiệp Đại học
Tổng hợp Hà Nội ngành
Ngôn ngữ học năm 1989.
Từ năm 1989 đến 1994
NCV VX Lương công tác
tại Trung tâm Quốc gia
Biên soạn Từ điển Bách
khoa Việt Nam. Từ năm
1995
đến nay NCV VX Lương công tác tại Trung tâm Từ
điển học. Những vấn đề quan tâm nghiên cứu của tác
giả bao gồm: Lí thuyết từ điển học và ứng dụng công
nghệ thông tin trong công tác biên soạn từ điển, Xây
dựng ngân hàng ngữ liệu tiếng Việt, Kiến trúc XML của
cơ sở ngữ liệu tiếng Việt và ngữ liệu từ điển.
E-mail: [email protected]
Cử nhân Lê Hồng Phương
tốt nghiệp Đại học Khoa
học Tự nhiên Hà Nội ngành
Toán - Tin ứng dụng năm
2002. Từ đó đến nay CN.
LH Phương công tác tại
khoa Toán - Cơ - Tin học
thuộc trường Đại học Khoa
học tự nhiên, ĐH Quốc gia
11