logo

Chuẩn trao đổi tài liệu số hoá dựa trên Dublin Core Metadata

Tham khảo tài liệu 'chuẩn trao đổi tài liệu số hoá dựa trên dublin core metadata', công nghệ thông tin, cơ sở dữ liệu phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004 Dự thảo: Chuẩn trao đổi tài liệu số hoá dựa trên Dublin Core Metadata (Phiên bản 1.0) dùng cho trao đổi dữ liệu trong các dự án CNTT Cơ quan biên soạn: Ban quản lý các dự án CNTT Thành phố HCM Sở Khoa học và Công nghệ Thành phố HCM Chủ trì: TS. Hoàng Lê Minh ThS. Nguyễn Khắc Thanh, ThS. Đào Quốc Hùng Lê Phạm Hoàng Giàu, Võ Đức Cẩm Hải Phạm Quốc Phương, Ngô Quang Tuấn Huy, Nguyễn Đức Tuấn Phối hợp: TS. Nguyễn Chí Công Tổ trưởng Tổ chuyên môn, Ban Điều hành đề án 112 CP TS. Đỗ Văn Lộc Chánh Văn phòng CNTT, Bộ Khoa học và Công nghệ ThS. Nguyễn Long Tổng thư ký Hội Tin học Việt Nam ThS. Nguyễn Minh Hiệp Chủ tịch Liên hiệp thư viện các trường ĐH khu vực phía Nam THÀNH PHỐ HỒ CHÍ MINH 2004 31 BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004 I. Sự cần thiết phải có chuẩn trong thông tin – thư viện điện tử liên kết lưu trữ và trao đổi tài liệu số hoá các trường đại học”, sau khi trao đổi Bắt đầu từ năm 2004, thành phố Hồ với một số chuyên gia CNTT và thông Chí Minh sẽ triển khai mạnh mẽ các dự án tin – thư viện tại Hà nội và thành phố Hồ Chí Minh, Ban QLDA CNTT đề CNTT của Chương trình mục tiêu ứng xuất xây dựng bản Dự thảo “Chuẩn dụng và phát triển CNTT thành phố, trao đổi tài liệu số hoá dựa trên thuộc bốn lĩnh vực lớn sau đây: Dublin Core Metadata” để áp dụng 1. Các dự án Tin học hoá quản lý trong các dự án CNTT của thành phố hành chính nhà nước (Đề án Hồ Chí minh, phục vụ việc trao đổi dữ 112) liệu, thông tin, các tài liệu số hoá và là cơ sở nền tảng công nghệ để phục vụ 2. Các dự án ứng dụng Hệ thống tích hợp dữ liệu cho các Trung tâm thông tin địa lý Tp. HCM tích hợp dữ liệu đang được xây dựng (SagoGIS) tại Thành phố Hồ Chí Minh: Trung tâm 3. Các dự án ứng dụng CNTT tích hợp dữ liệu cho các dự án 112, trong các lĩnh vực khác CityWEB, SagoGIS. 4. Các dự án đào tạo nhân lực, Tài liệu Dự thảo Chuẩn lưu trữ phát triển ngành Công nghiệp và trao đổi này sẽ được gửi cho một CNTT. số chuyên gia CNTT, chuyên gia các Ban Quản lý các dự án CNTT (Ban ngành thông tin – thư viện, thương mại QLDA CNTT) thành phố Hồ Chí Minh với điện tử, GIS, một số cơ quan chuyên nhiệm vụ tham mưu cho Sở Khoa học và môn của trung ương và các địa phương Công nghệ giúp Ủy ban nhân dân thành xem xét, đóng góp ý kiến. Chúng tôi phố Hồ Chí Minh tổ chức triển khai và tin tưởng các kết quả triển khai trên quản lý toàn bộ các dự án CNTT nhìn nhận một thực tế: để thực hiện có hiệu thực tế của các chuẩn lưu trữ và trao quả Chương trình CNTT, trách đầu tư đổi thông tin do Ban quản lý các dự án dàn trải và thiếu hiệu quả, nhất thiết CNTT thành phố Hồ Chí Minh đề xuất phải nhanh chóng xem xét và áp dụng trong Dự thảo sẽ là đóng góp thiết thực chuẩn lưu trữ và trao đổi các tài liệu để các cơ quan chuyên môn và quản lý điện tử số hoá, tiến tới thống nhất các cấp trung ương: Ban chỉ đạo quốc gia chuẩn trong trao đổi thông tin, dữ liệu về CNTT, Bộ Khoa học và Công nghệ, giữa các hệ thống tin học. Đây là một Bộ Bưu chính Viễn thông, Bộ Thương nhiệm vụ tương đối mới mẻ và khó khăn, mại, Ủy ban Khoa học, Công nghệ và do hiện nay có khá nhiều cách lưu trữ, trao đổi dữ liệu và thông tin đang được các Môi trường của Quốc hội xem xét trước công ty tin học trong nước sử dụng cho các khi ban hành các tiêu chuẩn quốc gia. doanh nghiệp và cơ quan chính phủ. Việc Mọi ý kiến trao đổi xin gửi về địa chấp nhận hệ thống các chuẩn theo chỉ [email protected] hướng mở, không phụ thuộc vào việc sử dụng các phần mềm lưu trữ và trao đổi II. Chuẩn lưu trữ tài liệu số hoá thông tin sẽ là nguyên tắc chủ đạo khi (tài liệu điện tử toàn văn) xem xét vấn đề định chuẩn để tránh vấn Xuất phát từ thực tiễn là hiện đề phụ thuộc vào công nghệ và sản phẩm nay, chúng ta đang sử dụng các công do các nhà cung cấp đưa ra.. Xuất phát từ cụ soạn thảo văn bản dựa trên phần thực tiễn triển khai các ứng dụng CNTT mềm Microsoft Word, có khá nhiều và tin học hoá tại Tp. HCM, đặc biệt trong tài liệu điện tử được tạo lập và lưu quá trình chuẩn bị đầu tư dự án “Hệ thống 32 BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004 trữ dưới khuôn dạng tài liệu doc của thành từ các tài liệu doc một Microsoft. Tuy nhiên khuôn dạng doc cách khá dễ dàng, giữ nguyên không thích hợp cho trao đổi văn bản định dạng như tài liệu gốc. Ngoài hành chính giữa các các cơ quan chính ra các tài liệu do quét các văn bản phủ, doanh nghiệp vì các lý do sau: như các hình ảnh số hoá cũng có 1. Tài liệu lưu trữ và trao đổi dưới thể lưu trữ dưới dạng PDF. dạng doc dễ dàng bị thay đổi nội 2. Tài liệu PDF không thể thay đổi, dung, không có khả năng xác thực nhất là những văn bản, tài liệu do người tạo lập, người ký, con dấu số hoá văn bản bằng giấy có chứa đóng trên tài liệu và các thông tin các bút tích, chữ ký, con dấu, khác kèm theo (bút phê của lãnh đạo, 3. Sử dụng các tài liệu số hoá PDF, các bút tích khác) chúng ta không cần có ngay 2. Hầu hết các tài liệu - văn bản hiện chuẩn mã hoá tiếng Việt, do các hành đều không có phiên bản điện tử tài liệu có thể được số hoá từ các số hoá dạng doc. Việc sử dụng khuôn văn bản in trên giấy. dạng doc như chuẩn trao đổi tài liệu 4. Tài liệu PDF có thể dễ dàng đọc điện tử đòi hỏi các cơ quan, doanh và in ra từ nhiều loại thiết bị: nghiệp phải tuân thủ quy trình soạn PDA, máy tính IBM, MacIntosh, thảo, số hoá và lưu trữ tài liệu điện hệ điều hành Windows, Linux, tử, hoặc bằng phương pháp nhập UNIX, vv... liệu, nhận dạng từ những tài liệu – văn bản bằng giấy. Đây là một quy Với tiến bộ của công nghệ số hoá trình tin học hoá rất khó khăn và và lưu trữ tài liệu hiện nay, dung lượng tốn kém, có thể gây nên những sự của các tài liệu được quét vào máy và lãng phí rất lớn cho chính các cơ số hoá dạng PDF là khá nhỏ. Trên thế quan, doanh nghiệp khi áp dụng tin giới đã phát minh ra công nghệ tìm học hoá. kiếm theo mẫu hình ảnh (image search 3. Các tài liệu dạng doc thường chứa engine) cho phép người ta có thể tìm các thông tin ẩn, các macro, và có kiểm toàn văn trong những văn bản số khả năng lây nhiễm virus rất lớn, do hoá quét vào máy tính và lưu trữ dạng đó không nên dùng để lưu trữ, trao PDF mà không phải dùng đến nhận đổi với các hệ thống khác, trừ khi dạng (xem thí dụ search inside the books tài liệu đó đang được luân chuyển tại Amazon website). trong nội bộ một đơn vị, cơ quan để Tóm lại, chúng tôi đề nghị chọn chờ xử lý, hoàn thiện và ban hành. III. Phương thức trao đổi tài liệu số Với các lý do trên đây, việc chọn hoá dạng tài liệu doc để lưu trữ và trao đổi là Để cho sự trao đổi các tài liệu số không phù hợp. Chúng tôi đề xuất chỉ hoá dạng PDF được thuận tiện và dễ sử dụng chuẩn tài liệu PDF (Portable dàng, nên kèm theo các thông tin cơ Document Format) để lưu trữ và trao bản về tài liệu như: tên tài liệu, tác đổi tài liệu điện tử toàn văn giữa các hệ giả, ngày ban hành, số hiệu, nguồn thống tin học với các ưu điểm như sau: gốc, nơi lưu trữ, các thông tin vắn tắt 1. Tài liệu PDF có thể được hình về tài liệu, chú thích, v.v... Các thông 33 BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004 tin kèm theo này được gọi là các thông tin thức giống như các thông tin này metadata về tài liệu. được người dùng nhập bằng tay Trong bộ tiêu chuẩn quốc gia của vào hệ thống. (chi tiết về chuẩn Mỹ, để mô tả các tài liệu điện tử, từ năm mực trình bày thông tin metadata 2001 Chính phủ Mỹ đã chấp nhận sử dụng nói ở phần sau) chuẩn mô tả thông tin metadata dự trên • Xuất dữ liệu metadata: hê thống ngôn ngữ XML, ký hiệu chuẩn là phải có khả năng xuất ra các dữ ANSI/NISO Z.39.85-2001. Chuẩn này có liệu metadata theo chuẩn mực tên gọi là Dublin Core Metadata Element thống nhất dùng để trao đổi với Set. các hệ thống khác, kèm theo tài Dublin Core Metadata Element Set liệu điện tử toàn văn. gồm có 15 trường chính mô tả những • Phương thức trao đổi: tài liệu thông tin quan trọng nhất, thường gặp và điện tử toàn văn và các thông tin chung nhất trong phân loại, lưu trữ và metadata kèm theo được khuyến trao đổi tài liệu điện tử. Từ các trường cáo chỉ sử dụng web service. Tuy mô tả này, người ta có thể thêm vào các nhiên hệ thống phải có khả năng trường dẫn xuất để mở rộng tùy ý khả tiếp nhận các tài liệu và thông năng mô tả tài liệu của Dublin Core tin metadata theo những cách metadata. truyền thống, trực tuyến và Bản thân dữ liệu metadata có thể là ngoại tuyến khác, như trao đổi một tập tin XML, có thể được lưu trữ tập tin qua CD-ROM, E- mail, trong một hệ quản trị CSDL, tuy nhiên để FTP, download từ Net, v.v.... sử dụng đúng mục đích, người ta yêu cầu • Không khuyến cáo sử dụng các tập tin chứa các thông tin metadata về mô hình client/server, các chuẩn tài liệu phải được kèm theo tài liệu ngay trao đổi dữ liệu trên mạng phải khi bắt đầu đưa tài liệu vào lưu trữ, quản lý sử dụng các phần mềm được viết và trao đổi. riêng, các phương thức trao đổi Sau đây là mô tả một quá trình trao dữ liệu trực tiếp từ CSDL như đổi tài liệu điện tử toàn văn kèm theo nhân bản dữ liệu (database thông tin metadata mà các hệ thống xử lý replication), đồng bộ dữ liệu thông tin cần phải nhận biết và xử lý (database synchronization), các chuẩn đặc thù khác như • Nhập liệu bằng tay: hệ thống phải cho phép người dùng tạo lập và lưu Z.39.50, OAI harvest protocol, trữ các thông tin metadata mô tả tài vv.... liệu bằng tay khi bắt đầu đưa tài liệu IV. Sử dụng Dublin Core Metadata vào quản lý và lưu trữ trong hệ thống cho mô tả văn bản hành chính (chi tiết về các trường metadata nói ở Sau đây là thí dụ sử dụng chuẩn ở phần sau) Dublin Core Metadata mô tả các văn • Nhập liệu tự động: hệ thống phải bản đã và đang được số hoá trên hệ có khả năng tự động đọc các thống quản lý văn bản của Ban Quản thông tin metadata được gửi từ bên lý các dự án CNTT tại địa chỉ ngoài tới hệ thống và xử lý theo cách http://itpmo.hochiminhcity.gov.vn 34 BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004 35
DMCA.com Protection Status Copyright by webtailieu.net