Hệ thống cấu trúc văn bản
Cách tiếp cận trong việc sinh các cách phát biểu khác nhau ứng với một văn bản cho trước, để hạn chế các văn bản dị thường và đánh giá độ trôi chảy của văn bản đầu ra.
Một cách tiếp cận trong việc tự động sinh các biểu diễn
tương đương của đoạn văn bản
An approach to automatically generate different presentations of
natural language paraphrases
Lê Thanh Hương
Abstract: This paper proposes a system to auto-
matically generate different presentations of a para- Cấu trúc diễn ngôn của câu này là:
phrase. To build such a system, three main tasks
need to be done: (1) recognizing the discourse struc-
ture of a document; (2) dealing with co-references Nhượng bộ
(optional); and (3) restating sentences. The system
has firstly been implemented for English language
using two main modules corresponding to the tasks 1 2
(1) and (3). The experiments have shown promising Jim likes tennis, Chinese food he is not usually
results. It indicates that the system will be improved and travel to exotic places adventurous.
if the task (2) is also implemented. We remain this
task for future work. Hình 1 - Cấu trúc diễn ngôn của câu (1)
Hình 1 thể hiện quan hệ diễn ngôn “Nhượng bộ”
I. Đặt vấn đề (Concession) giữa mệnh đề 1 “Jim likes tennis, Chi-
nese food and travel to exotic places” và mệnh đề 2
Khi diễn đạt cùng một nội dung, mỗi người có “he is not usually adventurous”, trong đó mệnh đề 1
thể trình bày theo những cách khác nhau. Những là mệnh đề phụ và mệnh đề 2 là mệnh đề chính trong
cách phát biểu khác nhau đó có thể do thói quen, do câu. Hệ thống sinh ra văn bản mới bằng các cách: (i)
người phát ngôn muốn nhấn mạnh đến một khía phát biểu lại các mệnh đề; và/hoặc (ii) đổi vị trí các
cạnh nào đó của sự việc, hay do người phát ngôn mệnh đề; và/hoặc (iii) thay đổi từ nối giữa chúng.
muốn thể hiện lại nội dung theo cách dễ hiểu hơn. Một trong các cách phát biểu lại của ví dụ (1) là:
Trên thế giới, hướng nghiên cứu về tự động sinh (1a) Jim likes tennis, Chinese food and travel to
các cách phát biểu khác nhau cho một đoạn văn bản exotic places. However, he is not usually
đang được quan tâm trong thời gian gần đây. Phần adventurous.
lớn các nghiên cứu tập trung vào việc chuyển đổi từ
vựng và cú pháp các câu đơn lẻ [1, 3, 4]. Chúng tôi Câu ghép ban đầu được tách thành hai câu đơn
hướng tới việc xây dựng bài toán ở phạm vi lớn hơn: trong cách phát biểu mới. Từ nối “although” đứng
thay đổi cấu trúc toàn bộ văn bản. Nghiên cứu được trước mệnh đề thứ nhất đã được thay bằng từ nối
thực hiện trước tiên cho tiếng Anh. Để thực hiện “However” đứng trước mệnh đề thứ hai. Việc tách
việc đó, chúng tôi sử dụng cách tiếp cận dựa trên các câu ghép thành câu đơn như trong ví dụ này làm
1
việc phân tích cấu trúc diễn ngôn của văn bản. Ví cho đoạn văn dễ đọc, dễ hiểu hơn.
dụ, xét câu sau: Trong bài này, chúng tôi sẽ đề xuất một hệ thống
(1) Although Jim likes tennis, Chinese food and sinh các cách phát biểu tương đương của văn bản,
travel to exotic places, he is not usually ad- giới thiệu một số cài đặt thử nghiệm và đánh giá kết
venturous. quả. Phần còn lại của bài báo được trình bày như
sau. Mô hình hệ thống được giới thiệu ở phần 2.
Phần 3 mô tả việc xây dựng cấu trúc diễn ngôn của
văn bản. Vấn đề sinh văn bản từ cấu trúc diễn ngôn
1
Cấu trúc diễn ngôn của văn bản cho biết mối quan hệ diễn ngôn giữa được đề cập ở phần 4. Phần 5 đưa ra các kết quả thí
các thành phần của văn bản. Xem phần III để biết thêm chi tiết.
nghiệm dựa trên hệ thống đã xây dựng. Các đánh giá bằng một từ nối chỉ nguyên nhân khác
và hướng phát triển của hệ thống sẽ được trình bày ở (“since” - ví dụ 2a,2b).
phần 6. 3. Thay đổi cấu trúc văn bản. Việc thay đổi
này phải đảm bảo tính logic và tính hiểu
II. Mô hình hệ thống được của văn bản. Một vấn đề khó khăn
trong việc chuyển đổi vị trí các thành phần
Với dữ liệu vào của hệ thống là văn bản do người của văn bản là nó thường làm hỏng các liên
soạn thảo, hệ thống sẽ sinh ra các văn bản có nội kết về mặt logic của văn bản. Lấy ví dụ đơn
dung tương tự như nội dung đưa vào nhưng với các giản về một cách phát biểu khác của ví dụ
cách viết khác nhau. Để có một hình dung về các 2a: “Since he had suffered from hunger and
bước cần tiến hành, ta hãy phân tích ví dụ 2 sau: coldness, the child had a fever”. Thông
thường, một đại từ xuất hiện khi danh từ
(2) The child had a fever because of hunger and tương ứng với nó đã được nhắc đến trước
coldness. trong đoạn văn. Trong trường hợp này, đại
Nếu bỏ qua khả năng thay đổi các danh từ và từ “he” đứng trước “the child” là sai qui tắc.
động từ chính trong câu, một số khả năng biến đổi Do vậy, hệ thống sinh văn bản mới từ văn
câu trên là: bản cũ phải có khả năng nhận biết các danh
từ và đại từ cùng chỉ đến một đối tượng. Ta
(2a) The child had a fever since he had suffered
gọi những từ này là từ đồng tham chiếu
from hunger and coldness.
(co-reference). Khi thay đổi cấu trúc văn
(2b) Since the child had suffered from hunger bản, hệ thống phải có khả năng chuyển đại
and coldness, he had a fever. từ thành danh từ nếu danh từ ứng với đại từ
đó chưa được nhắc đến trước đó.
Nếu so sánh các câu biến đổi trên với câu ban
4. Chuyển đổi các đơn vị diễn ngôn. Danh
đầu, ta có thể thấy một số vấn đề trong việc biến đổi
ngữ “hunger and coldness” ở ví dụ 2 được
câu là:
thay thế bằng mệnh đề “he had suffered
1. Xác định cấu trúc diễn ngôn của văn bản. from hunger and coldness” ở ví dụ 2a. Vấn
Trong ví dụ 2, ta có một mệnh đề “the child đề này sẽ được thảo luận kỹ hơn ở phần 4.2.
had a fever” và một danh ngữ (ta gọi là giả
Với các vấn đề đặt ra ở trên, hệ thống của chúng
mệnh đề - xem phần 3.1) là “hunger and
tôi bao gồm hai thành phần chính: bộ sinh cấu trúc
coldness”. Trong đó “hunger and coldness”
diễn ngôn và bộ sinh văn bản. Mô hình hệ thống
là (giả) mệnh đề phụ chỉ nguyên nhân của
được giới thiệu ở hình 2.
mệnh đề chính “the child had a fever”. Từ
nối “because of” xác định quan hệ “Nguyên
nhân” trong ví dụ này.
cấu trúc
diễn ngôn
Văn bản gốc
Bộ sinh cấu trúc
Văn bản sinh
diễn ngôn
Bộ sinh
văn bản
Hình 2 – Mô hình hệ thống sản sinh các cách phát biểu tương đương của văn bản
Bộ sinh cấu trúc diễn ngôn có nhiệm vụ sinh cấu
2. Thay đổi các từ nối giữa các thành phần
trúc diễn ngôn của văn bản và xác định các quan hệ
của văn bản. Trong ví dụ 2, mệnh đề và
đồng tham chiếu. Bộ sinh văn bản có nhiệm vụ xây
danh ngữ liên hệ với nhau bằng quan hệ
dựng cấu trúc văn bản mới, thay các từ nối và cách
“Nguyên nhân”. Do vậy, từ nối “because of”
phát biểu các mệnh đề. Hệ thống trước tiên được xây
chỉ quan hệ “Nguyên nhân” có thể thay thế
dựng cho ngôn ngữ tiếng Anh.
2 4
III. Sinh cấu trúc diễn ngôn nối các đơn vị diễn ngôn. Từ nối “when” trong ví
dụ 3 xác định quan hệ diễn ngôn “Hoàn cảnh” giữa
Việc sinh cấu trúc diễn ngôn của văn bản được hai mệnh đề “He was staying at home” và “the po-
thực hiện qua các bước: lice arrived”.
1. Chia văn bản thành các đơn vị diễn ngôn; (3) [He was staying at home][ when the police
2. Nhận dạng các quan hệ diễn ngôn giữa các arrived.]
đoạn văn bản;
3. Lựa chọn và kết hợp các quan hệ diễn ngôn Từ khoá trong danh ngữ, động ngữ là những
tạo ra ở bước 2 để tạo ra một cấu trúc diễn từ/ngữ phát tín hiệu về quan hệ diễn ngôn như trong
ngôn cho toàn bộ văn bản. các ví dụ (4) và (5).
(4) [New York style pizza meets Californian
III.1 Chia văn bản thành các đơn vị diễn ngôn
ingredients,][ and the result is the pizza
Cấu trúc diễn ngôn được xây dựng từ các thành from this Church Street pizzeria.]
phần diễn ngôn. Thành phần diễn ngôn nhỏ nhất gọi
(5) [By the end of this year, 63-year-old
là đơn vị diễn ngôn (Mann and Thompson, 1988).
Chairman Silas Cathcart retires to his Lake
Mỗi đơn vị diễn ngôn thường diễn đạt một ý trọn
Forest, Ill., home.][ And that means 42-
vẹn. Đơn vị diễn ngôn có thể là câu đơn, mệnh đề
year-old Michael Carpenter will for the first
(như mệnh đề 2 trong ví dụ 1) hay cách thành phần
time take complete control of Kidder.]
có vai trò như mệnh đề trong câu, tạm gọi là giả
mệnh đề (như danh ngữ “hunger and coldness” Danh từ “result” chỉ quan hệ “Nguyên nhân”
trong ví dụ 2). Giả mệnh đề được nhận biết bởi một trong ví dụ 4. Động từ “means” xác định quan hệ
danh ngữ đi kèm với các từ nối đặc biệt như accord- “Bổ sung thông tin” giữa hai câu trong ví dụ (5).
ing to, as a result of, although, because of, but also, Ngoài các từ nối và từ khoá nói trên, các yếu tố liên
despite, despite of, in spite of, irrespective, not only, kết văn bản khác cũng được sử dụng để xác định
regardless, without. Chúng tôi gọi những từ nối đó quan hệ diễn ngôn. Các yếu tố đó là cấu trúc cú pháp
là các từ nối mạnh, nhằm phân biệt chúng với các từ câu, sự tham chiếu về thời gian, các từ đồng nghĩa
nối không có tác dụng biến danh ngữ thành các đơn và hiện tượng tỉnh lược các thành phần câu.
vị diễn ngôn.
III.3 Nhận dạng quan hệ diễn ngôn
Vì một đơn vị diễn ngôn điển hình là mệnh đề
hoặc câu đơn, để chia văn bản thành các đơn vị diễn Chúng tôi sử dụng một tập gồm 13 quan hệ diễn
ngôn, trước tiên chúng tôi tiến hành bước phân tách ngôn để biểu diễn cấu trúc diễn ngôn. Các quan hệ
thứ nhất: phân tách văn bản dựa trên cấu trúc cú này là: nhượng bộ, nguyên nhân, hoàn cảnh, điều
3 kiện, bổ sung thông tin, phát biểu lại, phương tiện,
pháp của câu. Để giải quyết trường hợp giả mệnh
mục đích, liên kết, tách rời, tuần tự, đối lập và kết
đề, chúng tôi tiến hành bước phân tách thứ hai sau
nối (concession, cause, circumstance, conditional,
bước phân tách thứ nhất. Quá trình phân tách thứ hai
elaboration, restatement, means, purpose, disjunc-
này tìm các từ nối mạnh trong các câu đơn và các
tion, conjunction, sequence, contrast, joint). Kết nối
mệnh đề. Sau đó nó tiếp tục tách các câu đơn hay
(joint) là quan hệ mặc định, được sử dụng khi không
mệnh đề thành các đơn vị nhỏ hơn nến từ nối mạnh
tìm được quan hệ diễn ngôn nào khác liên kết hai
xuất hiện trong các thành phần đó. Khi từ nối mạnh
đoạn văn bản. Quá trình phát hiện các quan hệ diễn
xuất hiện, câu đơn/mệnh đề được chia làm hai đơn vị
ngôn dựa trên sự xuất hiện của các yếu tố xác định
diễn ngôn: một là danh ngữ đi kèm với từ nối mạnh,
quan hệ diễn ngôn (đề cập ở phần 3.2). Chúng tôi đã
và một là phần còn lại của câu đơn/mệnh đề.
xây dựng một tập luật để phát hiện các quan hệ diễn
III.2 Các yếu tố xác định quan hệ diễn ngôn ngôn dựa trên các yếu tố đó. Ví dụ:
Ba yếu tố quan trọng nhất được sử dụng trong hệ Nếu trong câu ghép có một mệnh đề chứa từ nối
thống này để xác định quan hệ diễn ngôn là các từ chỉ quan hệ “Nhượng bộ” (ví dụ “although”) thì
nối (cue phrases) và các từ khoá (keywords) trong mệnh đề đó là mệnh đề phụ trong mối quan hệ
danh ngữ và động ngữ. Các từ nối (ví dụ, despite of, “Nhượng bộ” với mệnh đề còn lại trong câu.
however,…) là các từ/ngữ đặc biệt được sử dụng để Vì mỗi yếu tố có một ảnh hưởng mạnh/yếu khác
nhau trong việc xác định quan hệ diễn ngôn, mỗi
luật được gán một trọng số khác nhau trong khoảng
2
Xem [5, 6] để biết chi tiết hơn về vấn đề phân tích cấu trúc diễn ngôn.
3 4
Bộ phân tích cú pháp của Charniak [2] được sử dụng để sinh cấu trúc Khi xây dựng chương trình, chúng tôi tổ chức các file riêng để lưu các
cú pháp của câu. từ nối và từ khoá này.
0 đến 100. Các luật liên quan đến từ nối có trọng số Đánh trọng số các yếu tố xác định quan hệ diễn
cao nhất (100) vì từ nối là yếu tố mạnh nhất để xác ngôn:
định các quan hệ diễn ngôn. Từ khoá trong danh ngữ
Rõ ràng là việc đưa ra các trọng số thích hợp cho
và động ngữ là yếu tố mạnh thứ hai sau từ nối nên có
từ nối, từ khoá và các luật xác định quan hệ diễn
trọng số 90. Trọng số của các yếu tố khác nằm trong
ngôn rất quan trọng trong việc sinh cấu trúc diễn
khoảng 20 đến 80 vì các yếu tố này yếu hơn các từ
ngôn. Hiện tại, trọng số của các luật được gán dựa
khoá (xem [5] để có các mô tả chi tiết hơn về các
trên kinh nghiệm của chuyên gia. Hiện nay, tập các
luật này).
yếu tố xác định quan hệ diễn ngôn cũng như các
Bên cạnh việc gán trọng số cho các luật, chúng trọng số của chúng hoạt động tốt với tập dữ liệu thử
tôi còn gán trọng số cho các từ nối và từ khoá. Các nghiệm. Trong thời gian tới, chúng tôi dự định sử
luật ứng với từ nối có trọng số 100 nghĩa là hệ thống dụng phương pháp học máy nhằm tối ưu hoá các
chắc chắn 100% về quan hệ diễn ngôn được phát trọng số này.
hiện dựa trên từ nối. Tuy nhiên, điều này chỉ đúng
nếu từ nối chắc chắn xác định quan hệ diễn ngôn đó. III.4 Xây dựng cấu trúc diễn ngôn
Trên thực tế, các từ nối có độ chắc chắn khác nhau
trong việc xác định các quan hệ. Ví dụ, từ nối “al- Với một văn bản, ta có thể tìm ra nhiều mối quan
though” luôn chỉ định quan hệ “Nhượng bộ”, trong hệ khác nhau và nhiều cách liên kết khác nhau giữa
khi từ nối “and” có thể chỉ định quan hệ “Liên kết”, các mệnh đề, câu và đoạn văn. Ví dụ, một câu có thể
“Tách rời”, hoặc “Bổ sung thông tin”. Điều đó có có quan hệ “Bổ sung thông tin” cho câu trước,
nghĩa là luật ứng với từ nối “and” không chắc chắn nhưng lại có quan hệ “Tuần tự” với câu sau. Vì vậy,
100% về quan hệ “Liên kết” giữa hai đoạn văn bản. ta cần phải lựa chọn và kết hợp các quan hệ diễn
Nói cách khác, ta cần giảm trọng số của luật khi luật ngôn tạo ra ở các bước trên để tạo ra một cấu trúc
liên quan đến một từ nối yếu. Chúng tôi gán trọng số diễn ngôn duy nhất cho toàn bộ văn bản. Để tận
của một từ nối trong khoảng [0, 1]. Trọng số thực tế dụng quan hệ giữa các mệnh đề trong câu (dựa trên
của luật ứng với từ nối là: cấu trúc cú pháp của câu), chúng tôi tách việc xây
Actual-score(luật) = Score(luật) * Score(từ nối). dựng cấu trúc diễn ngôn của văn bản thành hai mức:
mức câu và mức văn bản. Bộ phân tích mức câu sinh
Vì một từ khoá cũng có thể phát tín hiệu về một cấu trúc diễn ngôn cho từng câu dựa trên quan hệ cú
vài quan hệ diễn ngôn, các từ khoá ứng với danh ngữ pháp giữa các mệnh đề. Trong khi đó, bộ phân tích
và động ngữ cũng được gán trọng số trong khoảng mức văn bản sử dụng thuật toán tìm kiếm kiểu hạt
[0, 1]. Trọng số thực tế của luật ứng với từ khoá là: (beam search) trên tập các quan hệ diễn ngôn có thể
Actual-score(luật) = Score(luật)* Score(từ khoá). có giữa các câu và đoạn văn để tìm cách kết hợp các
Trọng số thực tế của luật ứng với các yếu tố còn quan hệ diễn ngôn nhằm mô tả cấu trúc diễn ngôn
lại là: của văn bản một cách hợp lý nhất.
Actual-score(luật) = Score(luật)
IV. Sinh văn bản từ cấu trúc diễn ngôn
Nếu một số luật ứng với một quan hệ diễn ngôn
thoả mãn thì trọng số của luật sẽ là tổng trọng số của 5
tất cả các yếu tố góp phần vào quan hệ đó. Dựa trên các kết quả nghiên cứu [5] và [8] ,
Total-heuristic-score = ∑ Actual-score (luật) chúng tôi đề xuất hệ thống sinh các cách phát biểu
khác nhau của một đoạn văn bản như sau. Với đầu
Hệ thống tìm các yếu tố xác định quan hệ diễn vào là cấu trúc diễn ngôn của văn bản nguồn, bộ
ngôn theo trình tự sau: từ nối, từ khoá, và các yếu tố sinh văn bản sẽ sinh ra các cách phát biểu khác nhau
khác. Một quan hệ diễn ngôn sẽ được gán cho quan của văn bản đó. Biện pháp sinh văn bản đơn giản
hệ giữa hai đoạn văn bản nếu total-heuristic-score nhất là thay đổi các từ nối giữa các đơn vị diễn ngôn.
của quan hệ đó lớn hơn hoặc bằng một giá trị Một phương pháp ở mức cao hơn là chuyển đổi vị trí
ngưỡng θ. Việc chọn giá trị ngưỡng hợp lý rất quan các đơn vị diễn ngôn. Ví dụ, với câu ban đầu:
trọng vì sự thay đổi của giá trị này sẽ ảnh hưởng đến
(6) Doctors recommend Elixir since it gives
việc xác định các quan hệ diễn ngôn, dẫn đến thay
quick results and it has few side-effects.
đổi cấu trúc diễn ngôn của văn bản. Hiện tại, chúng
tôi gán cho ngưỡng này giá trị 30 (so với 100 là giá Cấu trúc diễn ngôn của câu này được sinh bởi
trị lớn nhất của một luật). Giá trị này được xác định modul sinh cấu trúc diễn ngôn là:
dựa trên việc thử nghiệm và đánh giá độ chính xác
của hệ thống với các giá trị ngưỡng khác nhau.
5
Chúng tôi xin chân thành cảm ơn giáo sư Donia Scott và tiến sĩ Rich-
ard Power đã hỗ trợ chúng tôi thực hiện nghiên cứu này.
has
trong đó,
sentation) dùng để mở đầu và kết thúc một biểu
diễn cấu trúc lưu trữ của quan hệ diễn ngôn. Việc xác định các từ đồng tham chiếu hố trợ cho
• thẻ SemRep (Semantic Representation) đánh quá trình chuyển đổi các đơn vị diễn ngôn theo ba
dấu mở đầu các thông tin về một đoạn văn bản. cách.
• thẻ syncat (syntactic catergory) cho biết vai trò 1. Biến đổi đại từ thành danh từ, ví dụ “it gives
ngữ pháp của đoạn văn bản (mệnh đề, câu, đoạn quick results” có thể chuyển thành “Elixir gives
văn) quick results”
• thẻ relation cho biết tên quan hệ diễn ngôn 2. Biến đổi danh từ thành đại từ, ví dụ “doctors
giữa các đoạn văn bản. recommend Elixir” có thể chuyển thành “doc-
tors recommend it”
• thẻ prop (proposition) nhằm lưu nội dung đoạn
văn bản. 3. Lược bớt đại từ, ví dụ “it gives quick results
and it has few side-effects” có thể chuyển thành
Nếu chỉ thay đổi từ nối, ta sẽ có câu (6a) sau: “it gives quick results and has few side-effects”.
(6a) Doctors recommend Elixir because it gives Như vậy, ví dụ (6) có thể chuyển thành:
quick results and it has few side-effects.
(6c) Since Elixir gives quick results and has
Câu này không khác mấy với câu ban đầu. Nếu few side effects, doctors recommend it.
chỉ chuyển vị trí các mệnh đề, ta sẽ có câu (6b) sau:
Việc chuyển đổi văn bản mới từ văn bản cũ đã
(6b) Since it gives quick results and it has few trôi chảy hơn nhờ sự đóng góp của cơ chế chuyển
side effects, doctors recommend Elixir. đổi từ đồng tham chiếu. Tuy nhiên, chương trình vẫn
Tuy cách này có thể tạo ra các câu khác nhiều bị giới hạn vì chưa có khả năng chuyển đổi thời chủ
hơn so với câu ban đầu, nó lại thường gây ra sự động thành bị động, chuyển đổi danh ngữ thành
không mạch lạc. Ở ví dụ (6b), đại từ đi trước danh từ mệnh đề/câu đơn và ngược lại. Vấn đề này sẽ được
mà nó thay thế. Điều này không đúng với qui tắc phân tích kỹ hơn ở phần tiếp theo.
ngữ pháp. Để giải quyết vấn đề này, ta phải dùng cơ
IV.2 Chuyển đổi các đơn vị diễn ngôn
chế thay đổi các từ đồng tham chiếu. Cơ chế này
được giới thiệu ở phần tiếp theo.
Chuyển đổi các đơn vị diễn ngôn là một trong
IV.1 Thay đổi các từ đồng tham chiếu những phương pháp phát biểu lại câu. Hệ thống phải
có khả năng chuyển danh ngữ thành mệnh đề/câu
Để giải quyết vấn đề câu không mạch lạc nói ở đơn và ngược lại. Đồng thời, hệ thống phải có khả
phần trên, ngoài việc xác định các đơn vị diễn ngôn, năng nhận biết và chuyển đổi thời và thể của đơn vị
văn bản được phân tích chi tiết hơn bằng cách xác diễn ngôn. Ví dụ, với câu ban đầu là:
định các thuộc tính ngữ nghĩa đơn giản của danh từ. (7) He came late because of the rain.
Từ đó xác định các từ đồng tham chiếu. Ví dụ, thông
tin phân tích từ của ví dụ (6) được thể hiện qua ngôn Một cách phát biểu khác của câu này là:
ngữ đánh dấu như sau: (7a) He came late because it was raining.
chuyển thành chủ ngữ của mệnh đề phụ “it was rain-
recommend ing” trong ví dụ (7a). Chủ ngữ này đi với động từ ở
chính diễn ra ở thời quá khứ. Tuy nhiên, không phải
lúc nào ta cũng có thể sử dụng đại từ ở ngôi số 3 “it” IV.3 Lựa chọn các ràng buộc trong việc sinh văn
và động từ “to be” để chuyển đổi danh ngữ thành bản
mệnh đề/câu đơn. Ví dụ (8) minh hoạ một tình
huống như vậy (ở đây ta chỉ xét đến chuyển đổi câu Như đã nói ở phần trên, chúng ta có nhiều cách
đầu tiên trong đoạn). để sinh văn bản mới từ một văn bản cho trước.
Thông qua các ví dụ ta thấy việc kết hợp các phương
(8) Andy is going to be dangerous this year be-
pháp thường đưa ra kết quả tốt hơn việc áp dụng một
cause of his style. He has great strength and
phương pháp đơn lẻ. Bên cạnh việc kết hợp các
power and is such an entertaining player.
phương pháp nói trên, hệ thống sinh văn bản còn
Andy knows what he wants to do with his
được điều khiển bởi các ràng buộc cứng và các ràng
career and will step it up to get the win he
buộc mềm. Các ràng buộc cứng được sử dụng để
wants here at Wimbledon.
đảm bảo không có các văn bản sinh dị thường như
Nếu ta chuyển “because of his style” thành “be- văn bản sinh (6d) từ ví dụ (6).
cause it is his style” thì câu này sẽ càng khó hiểu
(6d) Since Elixir gives quick results doctors
hơn câu ban đầu. Thay vào đó, ta có thể nói “Andy is
recommend it, and it has few side effects.
going to be dangerous this year because he has a
powerful style.” Cần phải nhấn mạnh rằng “because Các ràng buộc cứng được lựa chọn thông qua
of his style” không thể hiểu được nếu ta không đọc giao diện người sử dụng. Tất cả các đầu ra của hệ
tiếp các câu sau, do vậy sẽ không thể chuyển danh thống đều phải thoả mãn các ràng buộc này. Các ví
ngữ này thành mệnh đề tương ứng. dụ về ràng buộc cứng là:
- Cho phép sử dụng các gạch đầu dòng để
Như vậy ta có thể thấy rằng việc chuyển đổi danh
biểu diễn quan hệ diễn ngôn chính-phụ (Câu
ngữ thành mệnh đề là một vấn đề khá phức tạp. Nếu
hỏi có/không)
ta chỉ chuyển đổi cấu trúc ngữ pháp của câu thì đôi
- Cho phép sử dụng các gạch đầu dòng để
khi chưa đủ mà ta còn cần lưu tâm đến ý nghĩa của
biểu diễn quan hệ diễn ngôn chính-chính
danh ngữ đó.
(Câu hỏi có/không)
Trong một số trường hợp, người viết giả thiết - Cho phép sử dụng từ nối để bắt đầu một
rằng người đọc đã có các hiểu biết về vấn đề đang thành phần của danh sách (Câu hỏi
được nói đến, chẳng hạn như trong ví dụ (9) sau: có/không)
(9) It was the year the final got put back to the Các ràng buộc mềm cho phép đánh giá mức độ
third Monday because of the weather. trôi chảy của văn bản sinh thông qua trọng số. Các
điều kiện của ràng buộc mềm có thể bị vi phạm
Ví dụ (9) có thể viết lại là:
nhưng khi đó trọng số của văn bản sẽ giảm. Các ví
(9a) It was the year the final got put back to the dụ về ràng buộc mềm là:
third Monday because the weather was too - Tránh các đoạn chỉ có một câu đơn. Ràng
bad. buộc này sẽ giảm trọng số của giải pháp
Khi chuyển đổi ví dụ (9) thành ví dụ (9a), ta phải trong đó hai mệnh đề của câu được chuyển
biết trước với thời tiết như thế nào thì trận chung kết thành hai đoạn riêng biệt.
bị huỷ bỏ. Điều này không được nhắc đến trong văn - Tránh các từ tham chiếu rời rạc (từ tham
bản. chiếu không tham chiếu đến đối tượng nào
cả).
Tóm lại, việc chuyển đổi các đơn vị diễn ngôn là - Tránh sử dụng câu bị động.
một vấn đề khá khó vì nó gắn với việc phân tích ngữ - Tránh các câu phức.
nghĩa ở mức sâu. Tuy nhiên, nếu giải quyết được
vấn đề này, chúng ta sẽ xây dựng được hệ thống sinh Văn bản đầu ra tốt nhất phụ thuộc vào yêu cầu
văn bản mạnh hơn và linh động hơn. Chương trình của người sử dụng và do người sử dụng lựa chọn.
thử nghiệm của chúng tôi hiện nay đã có thể chuyển
V. Một số kết quả đạt được
đổi các danh ngữ đơn giản thành mệnh đề/câu đơn.
Việc phân tích ngữ nghĩa ở mức sâu vẫn đang còn là
một thách thức lớn. Vấn đề này sẽ được tiếp tục Hiện nay, chúng tôi đã xây dựng một hệ thống
nghiên cứu trong thời gian tới. thử nghiệm dựa trên các kết quả nghiên cứu trên. Vì
vấn đề xác định và chuyển đổi các từ đồng tham
chiếu khá phức tạp, chúng tôi tạm thời chưa cài đặt
modul này. Việc chuyển đổi các đơn vị diễn ngôn
được thực hiện ở mức: chuyển danh ngữ thành mệnh
đề hoặc câu đơn; chuyển câu chủ động thành bị động Press a tablet from a sachet. Then eat
và ngược lại. Việc chuyển đổi các đơn vị diễn ngôn the tablet crushed with food, or swal-
dựa trên việc biến đổi các danh từ, động từ chính low it with a glass of water.
trong câu chưa được xét đến trong hệ thống hiện tại. Cấu trúc diễn ngôn của văn bản vào:
Mặc dù vậy, hệ thống đã có thể đưa ra khá nhiều khả
năng chuyển đổi văn bản. Chúng tôi sẽ tiếp tục
tới. Trong phần này, chúng tôi sẽ giới thiệu một số
thử nghiệm được thực hiện trên hệ thống đã xây
V.1 Thử nghiệm 1
Although one of the main ingredients
is penicillin, the medicine has no
significant side-effects. However,
some people might suffer a mild aller- Các văn bản đầu ra:
gic reaction. A.
Cấu trúc diễn ngôn của văn bản vào: • Press a tablet from a sachet.
• Eat the tablet crushed with
B. Press a tablet from a sachet; then,
• eat the tablet crushed with
water.
swallow it with a glass of water.
Trong thử nghiệm này, văn bản đầu ra sáng sủa
Các văn bản đầu ra: và dễ hiểu hơn văn bản đầu vào. Với văn bản đầu ra
C, ta thấy hệ thống có thể dựng lại gần như nguyên
A. Although one of the main ingredients
is penicillin, the medicine has no dạng văn bản đầu vào từ cấu trúc diễn ngôn của nó.
significant side-effects. However,
some people might suffer a mild al- V.3 Thử nghiệm 3
lergic reaction.
Văn bản vào:
B. The medicine has no significant Although Jim likes tennis, Chinese
side-effects although one of the food and travel to exotic places, he
main ingredients is penicillin. How- is not usually adventurous.
ever, some people might suffer a
mild allergic reaction. Cấu trúc diễn ngôn của văn bản vào:
C. One of the main ingredients is peni-
cillin. However, the medicine has no
people might suffer a mild allergic
Văn bản đầu ra A cho thấy hệ thống có thể dựng
lại nguyên dạng văn bản đầu vào từ cấu trúc diễn
ngôn của nó. Các đầu ra còn lại có thể hiểu được và Các văn bản đầu ra:
diễn tả được đúng nội dung của văn bản đầu vào. A. Jim likes tennis , Chinese food and
travel to exotic places. However, he
V.2 Thử nghiệm 2 is not usually adventurous.
Văn bản vào: B. Although Jim likes tennis , Chinese
food and travel to exotic places, he
is not usually adventurous.
C. He is not usually adventurous al- Middlesex University, U.K. 2004. (Bản lưu tại Thư
though Jim likes tennis , Chinese viện Quốc gia Việt Nam).
food and travel to exotic places.
[6] Le-Thanh, H., Abeysinghe, G., and Huyck, C.
Văn bản đầu ra C của ví dụ trên không mạch lạc Generating Discourse Structures for Written Texts.
do đại từ “he” được sử dụng trước khi danh từ riêng In Proceedings of the International Conference on
“Jim” được đề cập. Văn bản này sẽ đúng nếu “he” Computational Linguistics (COLING 2004), Ge-
được thay bằng “Jim” và “Jim” được thay bằng neva, Switzerland, Aug. 23-27, 2004.
“he”. Vấn đề này sẽ được giải quyết nếu bộ phân
tích các từ đồng tham chiếu được cài đặt. [7] Mann, W.C. and Thompson, S.A. Rhetorical
Structure Theory: Toward a Functional Theory of
VI. Kết luận và hướng phát triển Text Organisation. Text, vol. 8(3), 1988, pp.243-281.
[8] Power, R., Scott, D. and Bouayad-Agha, N.
Trong bài này, chúng tôi đã giới thiệu một cách Document Structure, Computational Linguistics,
tiếp cận trong việc sinh các cách phát biểu khác 29(4), 2003, pp. 211 - 260.
nhau ứng với một văn bản cho trước. Việc này được
thực hiện thông qua việc biến đổi cấu trúc văn bản
và phát biểu lại các mệnh đề trong câu. Các ràng
buộc cứng và mềm được sử dụng để hạn chế việc
sinh các văn bản dị thường và đánh giá độ trôi chảy
của văn bản đầu ra. Bước đầu, chúng tôi đã xây
dựng một hệ thống thử nghiệm dựa trên một số ý
tưởng đã đề xuất. Hệ thống có thể nhận một văn bản
vào và sinh nhiều cách phát biểu tương đương. Kết
quả thử nghiệm cho thấy việc cài đặt tiếp các đề xuất
còn lại là rất cần thiết để tăng độ hoàn thiện về mặt
ngữ nghĩa và tính trôi chảy của văn bản.
Acknowledgment
Dr. Le Thanh Huong gratefully acknowledges the
receipt of a grant from the Flemish Interuniversity
Council for University Development Cooperation
(VLIR UOS) which enabled the research team to
carry out this work
Tài liệu tham khảo
[1] Barzilay, R. and McKeown, K. Extracting para-
phrases from a parallel corpus. In Proceedings of the
39th Annual Meeting of the Association for Compu-
tational Linguistics, Toulouse, 2001.
[2] Charniak, E. A Maximum-Entropy-Inspired
Parser. Proceedings of NAACL-2000.
[3] Inui, K. and Nogami, M. A paraphrase-based
exploration of cohesiveness criteria. In Proceedings
of the 8th European Workshopon Natural Language
Generation (EWNLG), 2001.
[4] Kozlowski, R., McCoy, K. F. and Vijay-Shanker,
K. Generation of singlesentence paraphrases from
predicate/argument structure using lexico-
grammatical resources. In Proceedings of the Second
International Workshop on Paraphrasing, 2003.
[5] Le-Thanh, H. Investigation into an Approach to
Automatic Text Summarisation, Ph.D. dissertation,
Thông tin về tác giả: Tóm tắt bài báo bằng tiếng Việt:
Họ tên: Lê Thanh Hương Bài này đề xuất việc xây dựng một hệ thống
có khả năng tự động sinh các cách phát biểu
Ngày sinh: 12/01/1976
tương đương của đoạn văn bản. Ba công việc
Nơi sinh: Hà Nội chính trong hệ thống này là: (1) xây dựng
Địa chỉ liên lạc: Phòng 325 C1 trường ĐHBK cấu trúc diễn ngôn của văn bản; (2) xử lý vấn
Hà Nội. Số 1 Đại Cồ Việt đề đồng tham chiếu (tuỳ chọn); và (3) phát
biểu lại văn bản. Hệ thống được cài đặt thử
Điện thoại liên hệ: 0904674102 nghiệm trước tiên cho tiếng Anh, sử dụng
Email: [email protected] hai modul chính ứng với các công việc (1) và
(3). Kết quả thử nghiệm cho kết quả tương
Nơi công tác: Bộ môn Các Hệ thống thông tin, đối khả quan. Kết quả thử nghiệm cũng cho
Khoa Công nghệ thông tin, trường Đại học Bách thấy rằng nếu công việc (2) được cài đặt thì
khoa Hà nội. hệ thống sẽ cho kết quả tốt hơn. Chúng tôi sẽ
Quá trình công tác: nghiên cứu và cài đặt modul ứng với công
• nhận bằng Tiến sĩ CNTT, trường Đại học việc này trong tương lai.
tổng hợp Middlesex, Vương quốc Anh năm
2004 (về xử lý ngôn ngữ tự nhiên).
• nhận bằng Thạc sĩ CNTT, Trường Đại học
tự do Brussels, Vương quốc Bỉ năm 2001
(về Robotics)
• nhận bằng Thạc sĩ CNTT, trường ĐHBK Hà
Nội năm 1999 (về xử lý ngôn ngữ tự nhiên)
• tốt nghiệp Đại học ngành Tin học, trường
ĐHBK Hà Nội năm 1997.
Hiện đang giảng dạy tại Khoa Công nghệ Thông
tin, trường Đại học Bách khoa Hà Nội.
Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên,
khai phá dữ liệu và văn bản, các kỹ thuật học
máy.