logo

Hệ thống cấu trúc văn bản

Cách tiếp cận trong việc sinh các cách phát biểu khác nhau ứng với một văn bản cho trước, để hạn chế các văn bản dị thường và đánh giá độ trôi chảy của văn bản đầu ra.
Một cách tiếp cận trong việc tự động sinh các biểu diễn tương đương của đoạn văn bản An approach to automatically generate different presentations of natural language paraphrases Lê Thanh Hương Abstract: This paper proposes a system to auto- matically generate different presentations of a para- Cấu trúc diễn ngôn của câu này là: phrase. To build such a system, three main tasks need to be done: (1) recognizing the discourse struc- ture of a document; (2) dealing with co-references Nhượng bộ (optional); and (3) restating sentences. The system has firstly been implemented for English language using two main modules corresponding to the tasks 1 2 (1) and (3). The experiments have shown promising Jim likes tennis, Chinese food he is not usually results. It indicates that the system will be improved and travel to exotic places adventurous. if the task (2) is also implemented. We remain this task for future work. Hình 1 - Cấu trúc diễn ngôn của câu (1) Hình 1 thể hiện quan hệ diễn ngôn “Nhượng bộ” I. Đặt vấn đề (Concession) giữa mệnh đề 1 “Jim likes tennis, Chi- nese food and travel to exotic places” và mệnh đề 2 Khi diễn đạt cùng một nội dung, mỗi người có “he is not usually adventurous”, trong đó mệnh đề 1 thể trình bày theo những cách khác nhau. Những là mệnh đề phụ và mệnh đề 2 là mệnh đề chính trong cách phát biểu khác nhau đó có thể do thói quen, do câu. Hệ thống sinh ra văn bản mới bằng các cách: (i) người phát ngôn muốn nhấn mạnh đến một khía phát biểu lại các mệnh đề; và/hoặc (ii) đổi vị trí các cạnh nào đó của sự việc, hay do người phát ngôn mệnh đề; và/hoặc (iii) thay đổi từ nối giữa chúng. muốn thể hiện lại nội dung theo cách dễ hiểu hơn. Một trong các cách phát biểu lại của ví dụ (1) là: Trên thế giới, hướng nghiên cứu về tự động sinh (1a) Jim likes tennis, Chinese food and travel to các cách phát biểu khác nhau cho một đoạn văn bản exotic places. However, he is not usually đang được quan tâm trong thời gian gần đây. Phần adventurous. lớn các nghiên cứu tập trung vào việc chuyển đổi từ vựng và cú pháp các câu đơn lẻ [1, 3, 4]. Chúng tôi Câu ghép ban đầu được tách thành hai câu đơn hướng tới việc xây dựng bài toán ở phạm vi lớn hơn: trong cách phát biểu mới. Từ nối “although” đứng thay đổi cấu trúc toàn bộ văn bản. Nghiên cứu được trước mệnh đề thứ nhất đã được thay bằng từ nối thực hiện trước tiên cho tiếng Anh. Để thực hiện “However” đứng trước mệnh đề thứ hai. Việc tách việc đó, chúng tôi sử dụng cách tiếp cận dựa trên các câu ghép thành câu đơn như trong ví dụ này làm 1 việc phân tích cấu trúc diễn ngôn của văn bản. Ví cho đoạn văn dễ đọc, dễ hiểu hơn. dụ, xét câu sau: Trong bài này, chúng tôi sẽ đề xuất một hệ thống (1) Although Jim likes tennis, Chinese food and sinh các cách phát biểu tương đương của văn bản, travel to exotic places, he is not usually ad- giới thiệu một số cài đặt thử nghiệm và đánh giá kết venturous. quả. Phần còn lại của bài báo được trình bày như sau. Mô hình hệ thống được giới thiệu ở phần 2. Phần 3 mô tả việc xây dựng cấu trúc diễn ngôn của văn bản. Vấn đề sinh văn bản từ cấu trúc diễn ngôn 1 Cấu trúc diễn ngôn của văn bản cho biết mối quan hệ diễn ngôn giữa được đề cập ở phần 4. Phần 5 đưa ra các kết quả thí các thành phần của văn bản. Xem phần III để biết thêm chi tiết. nghiệm dựa trên hệ thống đã xây dựng. Các đánh giá bằng một từ nối chỉ nguyên nhân khác và hướng phát triển của hệ thống sẽ được trình bày ở (“since” - ví dụ 2a,2b). phần 6. 3. Thay đổi cấu trúc văn bản. Việc thay đổi này phải đảm bảo tính logic và tính hiểu II. Mô hình hệ thống được của văn bản. Một vấn đề khó khăn trong việc chuyển đổi vị trí các thành phần Với dữ liệu vào của hệ thống là văn bản do người của văn bản là nó thường làm hỏng các liên soạn thảo, hệ thống sẽ sinh ra các văn bản có nội kết về mặt logic của văn bản. Lấy ví dụ đơn dung tương tự như nội dung đưa vào nhưng với các giản về một cách phát biểu khác của ví dụ cách viết khác nhau. Để có một hình dung về các 2a: “Since he had suffered from hunger and bước cần tiến hành, ta hãy phân tích ví dụ 2 sau: coldness, the child had a fever”. Thông thường, một đại từ xuất hiện khi danh từ (2) The child had a fever because of hunger and tương ứng với nó đã được nhắc đến trước coldness. trong đoạn văn. Trong trường hợp này, đại Nếu bỏ qua khả năng thay đổi các danh từ và từ “he” đứng trước “the child” là sai qui tắc. động từ chính trong câu, một số khả năng biến đổi Do vậy, hệ thống sinh văn bản mới từ văn câu trên là: bản cũ phải có khả năng nhận biết các danh từ và đại từ cùng chỉ đến một đối tượng. Ta (2a) The child had a fever since he had suffered gọi những từ này là từ đồng tham chiếu from hunger and coldness. (co-reference). Khi thay đổi cấu trúc văn (2b) Since the child had suffered from hunger bản, hệ thống phải có khả năng chuyển đại and coldness, he had a fever. từ thành danh từ nếu danh từ ứng với đại từ đó chưa được nhắc đến trước đó. Nếu so sánh các câu biến đổi trên với câu ban 4. Chuyển đổi các đơn vị diễn ngôn. Danh đầu, ta có thể thấy một số vấn đề trong việc biến đổi ngữ “hunger and coldness” ở ví dụ 2 được câu là: thay thế bằng mệnh đề “he had suffered 1. Xác định cấu trúc diễn ngôn của văn bản. from hunger and coldness” ở ví dụ 2a. Vấn Trong ví dụ 2, ta có một mệnh đề “the child đề này sẽ được thảo luận kỹ hơn ở phần 4.2. had a fever” và một danh ngữ (ta gọi là giả Với các vấn đề đặt ra ở trên, hệ thống của chúng mệnh đề - xem phần 3.1) là “hunger and tôi bao gồm hai thành phần chính: bộ sinh cấu trúc coldness”. Trong đó “hunger and coldness” diễn ngôn và bộ sinh văn bản. Mô hình hệ thống là (giả) mệnh đề phụ chỉ nguyên nhân của được giới thiệu ở hình 2. mệnh đề chính “the child had a fever”. Từ nối “because of” xác định quan hệ “Nguyên nhân” trong ví dụ này. cấu trúc diễn ngôn Văn bản gốc Bộ sinh cấu trúc Văn bản sinh diễn ngôn Bộ sinh văn bản Hình 2 – Mô hình hệ thống sản sinh các cách phát biểu tương đương của văn bản Bộ sinh cấu trúc diễn ngôn có nhiệm vụ sinh cấu 2. Thay đổi các từ nối giữa các thành phần trúc diễn ngôn của văn bản và xác định các quan hệ của văn bản. Trong ví dụ 2, mệnh đề và đồng tham chiếu. Bộ sinh văn bản có nhiệm vụ xây danh ngữ liên hệ với nhau bằng quan hệ dựng cấu trúc văn bản mới, thay các từ nối và cách “Nguyên nhân”. Do vậy, từ nối “because of” phát biểu các mệnh đề. Hệ thống trước tiên được xây chỉ quan hệ “Nguyên nhân” có thể thay thế dựng cho ngôn ngữ tiếng Anh. 2 4 III. Sinh cấu trúc diễn ngôn nối các đơn vị diễn ngôn. Từ nối “when” trong ví dụ 3 xác định quan hệ diễn ngôn “Hoàn cảnh” giữa Việc sinh cấu trúc diễn ngôn của văn bản được hai mệnh đề “He was staying at home” và “the po- thực hiện qua các bước: lice arrived”. 1. Chia văn bản thành các đơn vị diễn ngôn; (3) [He was staying at home][ when the police 2. Nhận dạng các quan hệ diễn ngôn giữa các arrived.] đoạn văn bản; 3. Lựa chọn và kết hợp các quan hệ diễn ngôn Từ khoá trong danh ngữ, động ngữ là những tạo ra ở bước 2 để tạo ra một cấu trúc diễn từ/ngữ phát tín hiệu về quan hệ diễn ngôn như trong ngôn cho toàn bộ văn bản. các ví dụ (4) và (5). (4) [New York style pizza meets Californian III.1 Chia văn bản thành các đơn vị diễn ngôn ingredients,][ and the result is the pizza Cấu trúc diễn ngôn được xây dựng từ các thành from this Church Street pizzeria.] phần diễn ngôn. Thành phần diễn ngôn nhỏ nhất gọi (5) [By the end of this year, 63-year-old là đơn vị diễn ngôn (Mann and Thompson, 1988). Chairman Silas Cathcart retires to his Lake Mỗi đơn vị diễn ngôn thường diễn đạt một ý trọn Forest, Ill., home.][ And that means 42- vẹn. Đơn vị diễn ngôn có thể là câu đơn, mệnh đề year-old Michael Carpenter will for the first (như mệnh đề 2 trong ví dụ 1) hay cách thành phần time take complete control of Kidder.] có vai trò như mệnh đề trong câu, tạm gọi là giả mệnh đề (như danh ngữ “hunger and coldness” Danh từ “result” chỉ quan hệ “Nguyên nhân” trong ví dụ 2). Giả mệnh đề được nhận biết bởi một trong ví dụ 4. Động từ “means” xác định quan hệ danh ngữ đi kèm với các từ nối đặc biệt như accord- “Bổ sung thông tin” giữa hai câu trong ví dụ (5). ing to, as a result of, although, because of, but also, Ngoài các từ nối và từ khoá nói trên, các yếu tố liên despite, despite of, in spite of, irrespective, not only, kết văn bản khác cũng được sử dụng để xác định regardless, without. Chúng tôi gọi những từ nối đó quan hệ diễn ngôn. Các yếu tố đó là cấu trúc cú pháp là các từ nối mạnh, nhằm phân biệt chúng với các từ câu, sự tham chiếu về thời gian, các từ đồng nghĩa nối không có tác dụng biến danh ngữ thành các đơn và hiện tượng tỉnh lược các thành phần câu. vị diễn ngôn. III.3 Nhận dạng quan hệ diễn ngôn Vì một đơn vị diễn ngôn điển hình là mệnh đề hoặc câu đơn, để chia văn bản thành các đơn vị diễn Chúng tôi sử dụng một tập gồm 13 quan hệ diễn ngôn, trước tiên chúng tôi tiến hành bước phân tách ngôn để biểu diễn cấu trúc diễn ngôn. Các quan hệ thứ nhất: phân tách văn bản dựa trên cấu trúc cú này là: nhượng bộ, nguyên nhân, hoàn cảnh, điều 3 kiện, bổ sung thông tin, phát biểu lại, phương tiện, pháp của câu. Để giải quyết trường hợp giả mệnh mục đích, liên kết, tách rời, tuần tự, đối lập và kết đề, chúng tôi tiến hành bước phân tách thứ hai sau nối (concession, cause, circumstance, conditional, bước phân tách thứ nhất. Quá trình phân tách thứ hai elaboration, restatement, means, purpose, disjunc- này tìm các từ nối mạnh trong các câu đơn và các tion, conjunction, sequence, contrast, joint). Kết nối mệnh đề. Sau đó nó tiếp tục tách các câu đơn hay (joint) là quan hệ mặc định, được sử dụng khi không mệnh đề thành các đơn vị nhỏ hơn nến từ nối mạnh tìm được quan hệ diễn ngôn nào khác liên kết hai xuất hiện trong các thành phần đó. Khi từ nối mạnh đoạn văn bản. Quá trình phát hiện các quan hệ diễn xuất hiện, câu đơn/mệnh đề được chia làm hai đơn vị ngôn dựa trên sự xuất hiện của các yếu tố xác định diễn ngôn: một là danh ngữ đi kèm với từ nối mạnh, quan hệ diễn ngôn (đề cập ở phần 3.2). Chúng tôi đã và một là phần còn lại của câu đơn/mệnh đề. xây dựng một tập luật để phát hiện các quan hệ diễn III.2 Các yếu tố xác định quan hệ diễn ngôn ngôn dựa trên các yếu tố đó. Ví dụ: Ba yếu tố quan trọng nhất được sử dụng trong hệ Nếu trong câu ghép có một mệnh đề chứa từ nối thống này để xác định quan hệ diễn ngôn là các từ chỉ quan hệ “Nhượng bộ” (ví dụ “although”) thì nối (cue phrases) và các từ khoá (keywords) trong mệnh đề đó là mệnh đề phụ trong mối quan hệ danh ngữ và động ngữ. Các từ nối (ví dụ, despite of, “Nhượng bộ” với mệnh đề còn lại trong câu. however,…) là các từ/ngữ đặc biệt được sử dụng để Vì mỗi yếu tố có một ảnh hưởng mạnh/yếu khác nhau trong việc xác định quan hệ diễn ngôn, mỗi luật được gán một trọng số khác nhau trong khoảng 2 Xem [5, 6] để biết chi tiết hơn về vấn đề phân tích cấu trúc diễn ngôn. 3 4 Bộ phân tích cú pháp của Charniak [2] được sử dụng để sinh cấu trúc Khi xây dựng chương trình, chúng tôi tổ chức các file riêng để lưu các cú pháp của câu. từ nối và từ khoá này. 0 đến 100. Các luật liên quan đến từ nối có trọng số Đánh trọng số các yếu tố xác định quan hệ diễn cao nhất (100) vì từ nối là yếu tố mạnh nhất để xác ngôn: định các quan hệ diễn ngôn. Từ khoá trong danh ngữ Rõ ràng là việc đưa ra các trọng số thích hợp cho và động ngữ là yếu tố mạnh thứ hai sau từ nối nên có từ nối, từ khoá và các luật xác định quan hệ diễn trọng số 90. Trọng số của các yếu tố khác nằm trong ngôn rất quan trọng trong việc sinh cấu trúc diễn khoảng 20 đến 80 vì các yếu tố này yếu hơn các từ ngôn. Hiện tại, trọng số của các luật được gán dựa khoá (xem [5] để có các mô tả chi tiết hơn về các trên kinh nghiệm của chuyên gia. Hiện nay, tập các luật này). yếu tố xác định quan hệ diễn ngôn cũng như các Bên cạnh việc gán trọng số cho các luật, chúng trọng số của chúng hoạt động tốt với tập dữ liệu thử tôi còn gán trọng số cho các từ nối và từ khoá. Các nghiệm. Trong thời gian tới, chúng tôi dự định sử luật ứng với từ nối có trọng số 100 nghĩa là hệ thống dụng phương pháp học máy nhằm tối ưu hoá các chắc chắn 100% về quan hệ diễn ngôn được phát trọng số này. hiện dựa trên từ nối. Tuy nhiên, điều này chỉ đúng nếu từ nối chắc chắn xác định quan hệ diễn ngôn đó. III.4 Xây dựng cấu trúc diễn ngôn Trên thực tế, các từ nối có độ chắc chắn khác nhau trong việc xác định các quan hệ. Ví dụ, từ nối “al- Với một văn bản, ta có thể tìm ra nhiều mối quan though” luôn chỉ định quan hệ “Nhượng bộ”, trong hệ khác nhau và nhiều cách liên kết khác nhau giữa khi từ nối “and” có thể chỉ định quan hệ “Liên kết”, các mệnh đề, câu và đoạn văn. Ví dụ, một câu có thể “Tách rời”, hoặc “Bổ sung thông tin”. Điều đó có có quan hệ “Bổ sung thông tin” cho câu trước, nghĩa là luật ứng với từ nối “and” không chắc chắn nhưng lại có quan hệ “Tuần tự” với câu sau. Vì vậy, 100% về quan hệ “Liên kết” giữa hai đoạn văn bản. ta cần phải lựa chọn và kết hợp các quan hệ diễn Nói cách khác, ta cần giảm trọng số của luật khi luật ngôn tạo ra ở các bước trên để tạo ra một cấu trúc liên quan đến một từ nối yếu. Chúng tôi gán trọng số diễn ngôn duy nhất cho toàn bộ văn bản. Để tận của một từ nối trong khoảng [0, 1]. Trọng số thực tế dụng quan hệ giữa các mệnh đề trong câu (dựa trên của luật ứng với từ nối là: cấu trúc cú pháp của câu), chúng tôi tách việc xây Actual-score(luật) = Score(luật) * Score(từ nối). dựng cấu trúc diễn ngôn của văn bản thành hai mức: mức câu và mức văn bản. Bộ phân tích mức câu sinh Vì một từ khoá cũng có thể phát tín hiệu về một cấu trúc diễn ngôn cho từng câu dựa trên quan hệ cú vài quan hệ diễn ngôn, các từ khoá ứng với danh ngữ pháp giữa các mệnh đề. Trong khi đó, bộ phân tích và động ngữ cũng được gán trọng số trong khoảng mức văn bản sử dụng thuật toán tìm kiếm kiểu hạt [0, 1]. Trọng số thực tế của luật ứng với từ khoá là: (beam search) trên tập các quan hệ diễn ngôn có thể Actual-score(luật) = Score(luật)* Score(từ khoá). có giữa các câu và đoạn văn để tìm cách kết hợp các Trọng số thực tế của luật ứng với các yếu tố còn quan hệ diễn ngôn nhằm mô tả cấu trúc diễn ngôn lại là: của văn bản một cách hợp lý nhất. Actual-score(luật) = Score(luật) IV. Sinh văn bản từ cấu trúc diễn ngôn Nếu một số luật ứng với một quan hệ diễn ngôn thoả mãn thì trọng số của luật sẽ là tổng trọng số của 5 tất cả các yếu tố góp phần vào quan hệ đó. Dựa trên các kết quả nghiên cứu [5] và [8] , Total-heuristic-score = ∑ Actual-score (luật) chúng tôi đề xuất hệ thống sinh các cách phát biểu khác nhau của một đoạn văn bản như sau. Với đầu Hệ thống tìm các yếu tố xác định quan hệ diễn vào là cấu trúc diễn ngôn của văn bản nguồn, bộ ngôn theo trình tự sau: từ nối, từ khoá, và các yếu tố sinh văn bản sẽ sinh ra các cách phát biểu khác nhau khác. Một quan hệ diễn ngôn sẽ được gán cho quan của văn bản đó. Biện pháp sinh văn bản đơn giản hệ giữa hai đoạn văn bản nếu total-heuristic-score nhất là thay đổi các từ nối giữa các đơn vị diễn ngôn. của quan hệ đó lớn hơn hoặc bằng một giá trị Một phương pháp ở mức cao hơn là chuyển đổi vị trí ngưỡng θ. Việc chọn giá trị ngưỡng hợp lý rất quan các đơn vị diễn ngôn. Ví dụ, với câu ban đầu: trọng vì sự thay đổi của giá trị này sẽ ảnh hưởng đến (6) Doctors recommend Elixir since it gives việc xác định các quan hệ diễn ngôn, dẫn đến thay quick results and it has few side-effects. đổi cấu trúc diễn ngôn của văn bản. Hiện tại, chúng tôi gán cho ngưỡng này giá trị 30 (so với 100 là giá Cấu trúc diễn ngôn của câu này được sinh bởi trị lớn nhất của một luật). Giá trị này được xác định modul sinh cấu trúc diễn ngôn là: dựa trên việc thử nghiệm và đánh giá độ chính xác của hệ thống với các giá trị ngưỡng khác nhau. 5 Chúng tôi xin chân thành cảm ơn giáo sư Donia Scott và tiến sĩ Rich- ard Power đã hỗ trợ chúng tôi thực hiện nghiên cứu này. has trong đó, sentation) dùng để mở đầu và kết thúc một biểu diễn cấu trúc lưu trữ của quan hệ diễn ngôn. Việc xác định các từ đồng tham chiếu hố trợ cho • thẻ SemRep (Semantic Representation) đánh quá trình chuyển đổi các đơn vị diễn ngôn theo ba dấu mở đầu các thông tin về một đoạn văn bản. cách. • thẻ syncat (syntactic catergory) cho biết vai trò 1. Biến đổi đại từ thành danh từ, ví dụ “it gives ngữ pháp của đoạn văn bản (mệnh đề, câu, đoạn quick results” có thể chuyển thành “Elixir gives văn) quick results” • thẻ relation cho biết tên quan hệ diễn ngôn 2. Biến đổi danh từ thành đại từ, ví dụ “doctors giữa các đoạn văn bản. recommend Elixir” có thể chuyển thành “doc- tors recommend it” • thẻ prop (proposition) nhằm lưu nội dung đoạn văn bản. 3. Lược bớt đại từ, ví dụ “it gives quick results and it has few side-effects” có thể chuyển thành Nếu chỉ thay đổi từ nối, ta sẽ có câu (6a) sau: “it gives quick results and has few side-effects”. (6a) Doctors recommend Elixir because it gives Như vậy, ví dụ (6) có thể chuyển thành: quick results and it has few side-effects. (6c) Since Elixir gives quick results and has Câu này không khác mấy với câu ban đầu. Nếu few side effects, doctors recommend it. chỉ chuyển vị trí các mệnh đề, ta sẽ có câu (6b) sau: Việc chuyển đổi văn bản mới từ văn bản cũ đã (6b) Since it gives quick results and it has few trôi chảy hơn nhờ sự đóng góp của cơ chế chuyển side effects, doctors recommend Elixir. đổi từ đồng tham chiếu. Tuy nhiên, chương trình vẫn Tuy cách này có thể tạo ra các câu khác nhiều bị giới hạn vì chưa có khả năng chuyển đổi thời chủ hơn so với câu ban đầu, nó lại thường gây ra sự động thành bị động, chuyển đổi danh ngữ thành không mạch lạc. Ở ví dụ (6b), đại từ đi trước danh từ mệnh đề/câu đơn và ngược lại. Vấn đề này sẽ được mà nó thay thế. Điều này không đúng với qui tắc phân tích kỹ hơn ở phần tiếp theo. ngữ pháp. Để giải quyết vấn đề này, ta phải dùng cơ IV.2 Chuyển đổi các đơn vị diễn ngôn chế thay đổi các từ đồng tham chiếu. Cơ chế này được giới thiệu ở phần tiếp theo. Chuyển đổi các đơn vị diễn ngôn là một trong IV.1 Thay đổi các từ đồng tham chiếu những phương pháp phát biểu lại câu. Hệ thống phải có khả năng chuyển danh ngữ thành mệnh đề/câu Để giải quyết vấn đề câu không mạch lạc nói ở đơn và ngược lại. Đồng thời, hệ thống phải có khả phần trên, ngoài việc xác định các đơn vị diễn ngôn, năng nhận biết và chuyển đổi thời và thể của đơn vị văn bản được phân tích chi tiết hơn bằng cách xác diễn ngôn. Ví dụ, với câu ban đầu là: định các thuộc tính ngữ nghĩa đơn giản của danh từ. (7) He came late because of the rain. Từ đó xác định các từ đồng tham chiếu. Ví dụ, thông tin phân tích từ của ví dụ (6) được thể hiện qua ngôn Một cách phát biểu khác của câu này là: ngữ đánh dấu như sau: (7a) He came late because it was raining. chuyển thành chủ ngữ của mệnh đề phụ “it was rain- recommend ing” trong ví dụ (7a). Chủ ngữ này đi với động từ ở chính diễn ra ở thời quá khứ. Tuy nhiên, không phải lúc nào ta cũng có thể sử dụng đại từ ở ngôi số 3 “it” IV.3 Lựa chọn các ràng buộc trong việc sinh văn và động từ “to be” để chuyển đổi danh ngữ thành bản mệnh đề/câu đơn. Ví dụ (8) minh hoạ một tình huống như vậy (ở đây ta chỉ xét đến chuyển đổi câu Như đã nói ở phần trên, chúng ta có nhiều cách đầu tiên trong đoạn). để sinh văn bản mới từ một văn bản cho trước. Thông qua các ví dụ ta thấy việc kết hợp các phương (8) Andy is going to be dangerous this year be- pháp thường đưa ra kết quả tốt hơn việc áp dụng một cause of his style. He has great strength and phương pháp đơn lẻ. Bên cạnh việc kết hợp các power and is such an entertaining player. phương pháp nói trên, hệ thống sinh văn bản còn Andy knows what he wants to do with his được điều khiển bởi các ràng buộc cứng và các ràng career and will step it up to get the win he buộc mềm. Các ràng buộc cứng được sử dụng để wants here at Wimbledon. đảm bảo không có các văn bản sinh dị thường như Nếu ta chuyển “because of his style” thành “be- văn bản sinh (6d) từ ví dụ (6). cause it is his style” thì câu này sẽ càng khó hiểu (6d) Since Elixir gives quick results doctors hơn câu ban đầu. Thay vào đó, ta có thể nói “Andy is recommend it, and it has few side effects. going to be dangerous this year because he has a powerful style.” Cần phải nhấn mạnh rằng “because Các ràng buộc cứng được lựa chọn thông qua of his style” không thể hiểu được nếu ta không đọc giao diện người sử dụng. Tất cả các đầu ra của hệ tiếp các câu sau, do vậy sẽ không thể chuyển danh thống đều phải thoả mãn các ràng buộc này. Các ví ngữ này thành mệnh đề tương ứng. dụ về ràng buộc cứng là: - Cho phép sử dụng các gạch đầu dòng để Như vậy ta có thể thấy rằng việc chuyển đổi danh biểu diễn quan hệ diễn ngôn chính-phụ (Câu ngữ thành mệnh đề là một vấn đề khá phức tạp. Nếu hỏi có/không) ta chỉ chuyển đổi cấu trúc ngữ pháp của câu thì đôi - Cho phép sử dụng các gạch đầu dòng để khi chưa đủ mà ta còn cần lưu tâm đến ý nghĩa của biểu diễn quan hệ diễn ngôn chính-chính danh ngữ đó. (Câu hỏi có/không) Trong một số trường hợp, người viết giả thiết - Cho phép sử dụng từ nối để bắt đầu một rằng người đọc đã có các hiểu biết về vấn đề đang thành phần của danh sách (Câu hỏi được nói đến, chẳng hạn như trong ví dụ (9) sau: có/không) (9) It was the year the final got put back to the Các ràng buộc mềm cho phép đánh giá mức độ third Monday because of the weather. trôi chảy của văn bản sinh thông qua trọng số. Các điều kiện của ràng buộc mềm có thể bị vi phạm Ví dụ (9) có thể viết lại là: nhưng khi đó trọng số của văn bản sẽ giảm. Các ví (9a) It was the year the final got put back to the dụ về ràng buộc mềm là: third Monday because the weather was too - Tránh các đoạn chỉ có một câu đơn. Ràng bad. buộc này sẽ giảm trọng số của giải pháp Khi chuyển đổi ví dụ (9) thành ví dụ (9a), ta phải trong đó hai mệnh đề của câu được chuyển biết trước với thời tiết như thế nào thì trận chung kết thành hai đoạn riêng biệt. bị huỷ bỏ. Điều này không được nhắc đến trong văn - Tránh các từ tham chiếu rời rạc (từ tham bản. chiếu không tham chiếu đến đối tượng nào cả). Tóm lại, việc chuyển đổi các đơn vị diễn ngôn là - Tránh sử dụng câu bị động. một vấn đề khá khó vì nó gắn với việc phân tích ngữ - Tránh các câu phức. nghĩa ở mức sâu. Tuy nhiên, nếu giải quyết được vấn đề này, chúng ta sẽ xây dựng được hệ thống sinh Văn bản đầu ra tốt nhất phụ thuộc vào yêu cầu văn bản mạnh hơn và linh động hơn. Chương trình của người sử dụng và do người sử dụng lựa chọn. thử nghiệm của chúng tôi hiện nay đã có thể chuyển V. Một số kết quả đạt được đổi các danh ngữ đơn giản thành mệnh đề/câu đơn. Việc phân tích ngữ nghĩa ở mức sâu vẫn đang còn là một thách thức lớn. Vấn đề này sẽ được tiếp tục Hiện nay, chúng tôi đã xây dựng một hệ thống nghiên cứu trong thời gian tới. thử nghiệm dựa trên các kết quả nghiên cứu trên. Vì vấn đề xác định và chuyển đổi các từ đồng tham chiếu khá phức tạp, chúng tôi tạm thời chưa cài đặt modul này. Việc chuyển đổi các đơn vị diễn ngôn được thực hiện ở mức: chuyển danh ngữ thành mệnh đề hoặc câu đơn; chuyển câu chủ động thành bị động Press a tablet from a sachet. Then eat và ngược lại. Việc chuyển đổi các đơn vị diễn ngôn the tablet crushed with food, or swal- dựa trên việc biến đổi các danh từ, động từ chính low it with a glass of water. trong câu chưa được xét đến trong hệ thống hiện tại. Cấu trúc diễn ngôn của văn bản vào: Mặc dù vậy, hệ thống đã có thể đưa ra khá nhiều khả năng chuyển đổi văn bản. Chúng tôi sẽ tiếp tục tới. Trong phần này, chúng tôi sẽ giới thiệu một số thử nghiệm được thực hiện trên hệ thống đã xây V.1 Thử nghiệm 1 Although one of the main ingredients is penicillin, the medicine has no significant side-effects. However, some people might suffer a mild aller- Các văn bản đầu ra: gic reaction. A. Cấu trúc diễn ngôn của văn bản vào: • Press a tablet from a sachet. • Eat the tablet crushed with B. Press a tablet from a sachet; then, • eat the tablet crushed with water. swallow it with a glass of water. Trong thử nghiệm này, văn bản đầu ra sáng sủa Các văn bản đầu ra: và dễ hiểu hơn văn bản đầu vào. Với văn bản đầu ra C, ta thấy hệ thống có thể dựng lại gần như nguyên A. Although one of the main ingredients is penicillin, the medicine has no dạng văn bản đầu vào từ cấu trúc diễn ngôn của nó. significant side-effects. However, some people might suffer a mild al- V.3 Thử nghiệm 3 lergic reaction. Văn bản vào: B. The medicine has no significant Although Jim likes tennis, Chinese side-effects although one of the food and travel to exotic places, he main ingredients is penicillin. How- is not usually adventurous. ever, some people might suffer a mild allergic reaction. Cấu trúc diễn ngôn của văn bản vào: C. One of the main ingredients is peni- cillin. However, the medicine has no people might suffer a mild allergic Văn bản đầu ra A cho thấy hệ thống có thể dựng lại nguyên dạng văn bản đầu vào từ cấu trúc diễn ngôn của nó. Các đầu ra còn lại có thể hiểu được và Các văn bản đầu ra: diễn tả được đúng nội dung của văn bản đầu vào. A. Jim likes tennis , Chinese food and travel to exotic places. However, he V.2 Thử nghiệm 2 is not usually adventurous. Văn bản vào: B. Although Jim likes tennis , Chinese food and travel to exotic places, he is not usually adventurous. C. He is not usually adventurous al- Middlesex University, U.K. 2004. (Bản lưu tại Thư though Jim likes tennis , Chinese viện Quốc gia Việt Nam). food and travel to exotic places. [6] Le-Thanh, H., Abeysinghe, G., and Huyck, C. Văn bản đầu ra C của ví dụ trên không mạch lạc Generating Discourse Structures for Written Texts. do đại từ “he” được sử dụng trước khi danh từ riêng In Proceedings of the International Conference on “Jim” được đề cập. Văn bản này sẽ đúng nếu “he” Computational Linguistics (COLING 2004), Ge- được thay bằng “Jim” và “Jim” được thay bằng neva, Switzerland, Aug. 23-27, 2004. “he”. Vấn đề này sẽ được giải quyết nếu bộ phân tích các từ đồng tham chiếu được cài đặt. [7] Mann, W.C. and Thompson, S.A. Rhetorical Structure Theory: Toward a Functional Theory of VI. Kết luận và hướng phát triển Text Organisation. Text, vol. 8(3), 1988, pp.243-281. [8] Power, R., Scott, D. and Bouayad-Agha, N. Trong bài này, chúng tôi đã giới thiệu một cách Document Structure, Computational Linguistics, tiếp cận trong việc sinh các cách phát biểu khác 29(4), 2003, pp. 211 - 260. nhau ứng với một văn bản cho trước. Việc này được thực hiện thông qua việc biến đổi cấu trúc văn bản và phát biểu lại các mệnh đề trong câu. Các ràng buộc cứng và mềm được sử dụng để hạn chế việc sinh các văn bản dị thường và đánh giá độ trôi chảy của văn bản đầu ra. Bước đầu, chúng tôi đã xây dựng một hệ thống thử nghiệm dựa trên một số ý tưởng đã đề xuất. Hệ thống có thể nhận một văn bản vào và sinh nhiều cách phát biểu tương đương. Kết quả thử nghiệm cho thấy việc cài đặt tiếp các đề xuất còn lại là rất cần thiết để tăng độ hoàn thiện về mặt ngữ nghĩa và tính trôi chảy của văn bản. Acknowledgment Dr. Le Thanh Huong gratefully acknowledges the receipt of a grant from the Flemish Interuniversity Council for University Development Cooperation (VLIR UOS) which enabled the research team to carry out this work Tài liệu tham khảo [1] Barzilay, R. and McKeown, K. Extracting para- phrases from a parallel corpus. In Proceedings of the 39th Annual Meeting of the Association for Compu- tational Linguistics, Toulouse, 2001. [2] Charniak, E. A Maximum-Entropy-Inspired Parser. Proceedings of NAACL-2000. [3] Inui, K. and Nogami, M. A paraphrase-based exploration of cohesiveness criteria. In Proceedings of the 8th European Workshopon Natural Language Generation (EWNLG), 2001. [4] Kozlowski, R., McCoy, K. F. and Vijay-Shanker, K. Generation of singlesentence paraphrases from predicate/argument structure using lexico- grammatical resources. In Proceedings of the Second International Workshop on Paraphrasing, 2003. [5] Le-Thanh, H. Investigation into an Approach to Automatic Text Summarisation, Ph.D. dissertation, Thông tin về tác giả: Tóm tắt bài báo bằng tiếng Việt: Họ tên: Lê Thanh Hương Bài này đề xuất việc xây dựng một hệ thống có khả năng tự động sinh các cách phát biểu Ngày sinh: 12/01/1976 tương đương của đoạn văn bản. Ba công việc Nơi sinh: Hà Nội chính trong hệ thống này là: (1) xây dựng Địa chỉ liên lạc: Phòng 325 C1 trường ĐHBK cấu trúc diễn ngôn của văn bản; (2) xử lý vấn Hà Nội. Số 1 Đại Cồ Việt đề đồng tham chiếu (tuỳ chọn); và (3) phát biểu lại văn bản. Hệ thống được cài đặt thử Điện thoại liên hệ: 0904674102 nghiệm trước tiên cho tiếng Anh, sử dụng Email: [email protected] hai modul chính ứng với các công việc (1) và (3). Kết quả thử nghiệm cho kết quả tương Nơi công tác: Bộ môn Các Hệ thống thông tin, đối khả quan. Kết quả thử nghiệm cũng cho Khoa Công nghệ thông tin, trường Đại học Bách thấy rằng nếu công việc (2) được cài đặt thì khoa Hà nội. hệ thống sẽ cho kết quả tốt hơn. Chúng tôi sẽ Quá trình công tác: nghiên cứu và cài đặt modul ứng với công • nhận bằng Tiến sĩ CNTT, trường Đại học việc này trong tương lai. tổng hợp Middlesex, Vương quốc Anh năm 2004 (về xử lý ngôn ngữ tự nhiên). • nhận bằng Thạc sĩ CNTT, Trường Đại học tự do Brussels, Vương quốc Bỉ năm 2001 (về Robotics) • nhận bằng Thạc sĩ CNTT, trường ĐHBK Hà Nội năm 1999 (về xử lý ngôn ngữ tự nhiên) • tốt nghiệp Đại học ngành Tin học, trường ĐHBK Hà Nội năm 1997. Hiện đang giảng dạy tại Khoa Công nghệ Thông tin, trường Đại học Bách khoa Hà Nội. Lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và văn bản, các kỹ thuật học máy.
DMCA.com Protection Status Copyright by webtailieu.net