Chuẩn trao đổi tài liệu số hoá dựa trên Dublin Core Metadata
Tham khảo tài liệu 'chuẩn trao đổi tài liệu số hoá dựa trên dublin core metadata', công nghệ thông tin, cơ sở dữ liệu phục vụ nhu cầu học tập, nghiên cứu và làm việc hiệu quả
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004
Dự thảo:
Chuẩn trao đổi tài liệu số hoá
dựa trên Dublin Core Metadata
(Phiên bản 1.0)
dùng cho trao đổi dữ liệu trong các dự án CNTT
Cơ quan biên soạn:
Ban quản lý các dự án CNTT Thành phố HCM
Sở Khoa học và Công nghệ Thành phố HCM
Chủ trì:
TS. Hoàng Lê Minh
ThS. Nguyễn Khắc Thanh, ThS. Đào Quốc Hùng
Lê Phạm Hoàng Giàu, Võ Đức Cẩm Hải
Phạm Quốc Phương, Ngô Quang Tuấn Huy, Nguyễn Đức Tuấn
Phối hợp:
TS. Nguyễn Chí Công
Tổ trưởng Tổ chuyên môn, Ban Điều hành đề án 112 CP
TS. Đỗ Văn Lộc
Chánh Văn phòng CNTT, Bộ Khoa học và Công nghệ
ThS. Nguyễn Long
Tổng thư ký Hội Tin học Việt Nam
ThS. Nguyễn Minh Hiệp
Chủ tịch Liên hiệp thư viện các trường ĐH khu vực phía Nam
THÀNH PHỐ HỒ CHÍ MINH
2004
31
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004
I. Sự cần thiết phải có chuẩn trong thông tin – thư viện điện tử liên kết
lưu trữ và trao đổi tài liệu số hoá các trường đại học”, sau khi trao đổi
Bắt đầu từ năm 2004, thành phố Hồ với một số chuyên gia CNTT và thông
Chí Minh sẽ triển khai mạnh mẽ các dự án tin – thư viện tại Hà nội và thành phố
Hồ Chí Minh, Ban QLDA CNTT đề
CNTT của Chương trình mục tiêu ứng xuất xây dựng bản Dự thảo “Chuẩn
dụng và phát triển CNTT thành phố, trao đổi tài liệu số hoá dựa trên
thuộc bốn lĩnh vực lớn sau đây: Dublin Core Metadata” để áp dụng
1. Các dự án Tin học hoá quản lý trong các dự án CNTT của thành phố
hành chính nhà nước (Đề án Hồ Chí minh, phục vụ việc trao đổi dữ
112) liệu, thông tin, các tài liệu số hoá và là
cơ sở nền tảng công nghệ để phục vụ
2. Các dự án ứng dụng Hệ thống tích hợp dữ liệu cho các Trung tâm
thông tin địa lý Tp. HCM tích hợp dữ liệu đang được xây dựng
(SagoGIS) tại Thành phố Hồ Chí Minh: Trung tâm
3. Các dự án ứng dụng CNTT tích hợp dữ liệu cho các dự án 112,
trong các lĩnh vực khác CityWEB, SagoGIS.
4. Các dự án đào tạo nhân lực, Tài liệu Dự thảo Chuẩn lưu trữ
phát triển ngành Công nghiệp và trao đổi này sẽ được gửi cho một
CNTT. số chuyên gia CNTT, chuyên gia các
Ban Quản lý các dự án CNTT (Ban ngành thông tin – thư viện, thương mại
QLDA CNTT) thành phố Hồ Chí Minh với điện tử, GIS, một số cơ quan chuyên
nhiệm vụ tham mưu cho Sở Khoa học và môn của trung ương và các địa phương
Công nghệ giúp Ủy ban nhân dân thành xem xét, đóng góp ý kiến. Chúng tôi
phố Hồ Chí Minh tổ chức triển khai và tin tưởng các kết quả triển khai trên
quản lý toàn bộ các dự án CNTT nhìn
nhận một thực tế: để thực hiện có hiệu thực tế của các chuẩn lưu trữ và trao
quả Chương trình CNTT, trách đầu tư đổi thông tin do Ban quản lý các dự án
dàn trải và thiếu hiệu quả, nhất thiết CNTT thành phố Hồ Chí Minh đề xuất
phải nhanh chóng xem xét và áp dụng trong Dự thảo sẽ là đóng góp thiết thực
chuẩn lưu trữ và trao đổi các tài liệu để các cơ quan chuyên môn và quản lý
điện tử số hoá, tiến tới thống nhất các cấp trung ương: Ban chỉ đạo quốc gia
chuẩn trong trao đổi thông tin, dữ liệu về CNTT, Bộ Khoa học và Công nghệ,
giữa các hệ thống tin học. Đây là một Bộ Bưu chính Viễn thông, Bộ Thương
nhiệm vụ tương đối mới mẻ và khó khăn, mại, Ủy ban Khoa học, Công nghệ và
do hiện nay có khá nhiều cách lưu trữ, trao
đổi dữ liệu và thông tin đang được các Môi trường của Quốc hội xem xét trước
công ty tin học trong nước sử dụng cho các khi ban hành các tiêu chuẩn quốc gia.
doanh nghiệp và cơ quan chính phủ. Việc Mọi ý kiến trao đổi xin gửi về địa
chấp nhận hệ thống các chuẩn theo chỉ [email protected]
hướng mở, không phụ thuộc vào việc sử
dụng các phần mềm lưu trữ và trao đổi II. Chuẩn lưu trữ tài liệu số hoá
thông tin sẽ là nguyên tắc chủ đạo khi (tài liệu điện tử toàn văn)
xem xét vấn đề định chuẩn để tránh vấn Xuất phát từ thực tiễn là hiện
đề phụ thuộc vào công nghệ và sản phẩm nay, chúng ta đang sử dụng các công
do các nhà cung cấp đưa ra.. Xuất phát từ cụ soạn thảo văn bản dựa trên phần
thực tiễn triển khai các ứng dụng CNTT mềm Microsoft Word, có khá nhiều
và tin học hoá tại Tp. HCM, đặc biệt trong tài liệu điện tử được tạo lập và lưu
quá trình chuẩn bị đầu tư dự án “Hệ thống
32
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004
trữ dưới khuôn dạng tài liệu doc của thành từ các tài liệu doc một
Microsoft. Tuy nhiên khuôn dạng doc cách khá dễ dàng, giữ nguyên
không thích hợp cho trao đổi văn bản định dạng như tài liệu gốc. Ngoài
hành chính giữa các các cơ quan chính ra các tài liệu do quét các văn bản
phủ, doanh nghiệp vì các lý do sau: như các hình ảnh số hoá cũng có
1. Tài liệu lưu trữ và trao đổi dưới thể lưu trữ dưới dạng PDF.
dạng doc dễ dàng bị thay đổi nội 2. Tài liệu PDF không thể thay đổi,
dung, không có khả năng xác thực nhất là những văn bản, tài liệu do
người tạo lập, người ký, con dấu số hoá văn bản bằng giấy có chứa
đóng trên tài liệu và các thông tin các bút tích, chữ ký, con dấu,
khác kèm theo (bút phê của lãnh đạo, 3. Sử dụng các tài liệu số hoá PDF,
các bút tích khác) chúng ta không cần có ngay
2. Hầu hết các tài liệu - văn bản hiện chuẩn mã hoá tiếng Việt, do các
hành đều không có phiên bản điện tử tài liệu có thể được số hoá từ các
số hoá dạng doc. Việc sử dụng khuôn văn bản in trên giấy.
dạng doc như chuẩn trao đổi tài liệu 4. Tài liệu PDF có thể dễ dàng đọc
điện tử đòi hỏi các cơ quan, doanh và in ra từ nhiều loại thiết bị:
nghiệp phải tuân thủ quy trình soạn
PDA, máy tính IBM, MacIntosh,
thảo, số hoá và lưu trữ tài liệu điện
hệ điều hành Windows, Linux,
tử, hoặc bằng phương pháp nhập
UNIX, vv...
liệu, nhận dạng từ những tài liệu –
văn bản bằng giấy. Đây là một quy Với tiến bộ của công nghệ số hoá
trình tin học hoá rất khó khăn và và lưu trữ tài liệu hiện nay, dung lượng
tốn kém, có thể gây nên những sự của các tài liệu được quét vào máy và
lãng phí rất lớn cho chính các cơ số hoá dạng PDF là khá nhỏ. Trên thế
quan, doanh nghiệp khi áp dụng tin giới đã phát minh ra công nghệ tìm
học hoá. kiếm theo mẫu hình ảnh (image search
3. Các tài liệu dạng doc thường chứa engine) cho phép người ta có thể tìm
các thông tin ẩn, các macro, và có kiểm toàn văn trong những văn bản số
khả năng lây nhiễm virus rất lớn, do hoá quét vào máy tính và lưu trữ dạng
đó không nên dùng để lưu trữ, trao PDF mà không phải dùng đến nhận
đổi với các hệ thống khác, trừ khi dạng (xem thí dụ search inside the books
tài liệu đó đang được luân chuyển tại Amazon website).
trong nội bộ một đơn vị, cơ quan để Tóm lại, chúng tôi đề nghị chọn
chờ xử lý, hoàn thiện và ban hành. III. Phương thức trao đổi tài liệu số
Với các lý do trên đây, việc chọn hoá
dạng tài liệu doc để lưu trữ và trao đổi là Để cho sự trao đổi các tài liệu số
không phù hợp. Chúng tôi đề xuất chỉ hoá dạng PDF được thuận tiện và dễ
sử dụng chuẩn tài liệu PDF (Portable dàng, nên kèm theo các thông tin cơ
Document Format) để lưu trữ và trao bản về tài liệu như: tên tài liệu, tác
đổi tài liệu điện tử toàn văn giữa các hệ giả, ngày ban hành, số hiệu, nguồn
thống tin học với các ưu điểm như sau: gốc, nơi lưu trữ, các thông tin vắn tắt
1. Tài liệu PDF có thể được hình về tài liệu, chú thích, v.v... Các thông
33
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004
tin kèm theo này được gọi là các thông tin thức giống như các thông tin này
metadata về tài liệu. được người dùng nhập bằng tay
Trong bộ tiêu chuẩn quốc gia của vào hệ thống. (chi tiết về chuẩn
Mỹ, để mô tả các tài liệu điện tử, từ năm mực trình bày thông tin metadata
2001 Chính phủ Mỹ đã chấp nhận sử dụng nói ở phần sau)
chuẩn mô tả thông tin metadata dự trên • Xuất dữ liệu metadata: hê thống
ngôn ngữ XML, ký hiệu chuẩn là phải có khả năng xuất ra các dữ
ANSI/NISO Z.39.85-2001. Chuẩn này có liệu metadata theo chuẩn mực
tên gọi là Dublin Core Metadata Element thống nhất dùng để trao đổi với
Set. các hệ thống khác, kèm theo tài
Dublin Core Metadata Element Set liệu điện tử toàn văn.
gồm có 15 trường chính mô tả những • Phương thức trao đổi: tài liệu
thông tin quan trọng nhất, thường gặp và điện tử toàn văn và các thông tin
chung nhất trong phân loại, lưu trữ và metadata kèm theo được khuyến
trao đổi tài liệu điện tử. Từ các trường cáo chỉ sử dụng web service. Tuy
mô tả này, người ta có thể thêm vào các nhiên hệ thống phải có khả năng
trường dẫn xuất để mở rộng tùy ý khả tiếp nhận các tài liệu và thông
năng mô tả tài liệu của Dublin Core tin metadata theo những cách
metadata. truyền thống, trực tuyến và
Bản thân dữ liệu metadata có thể là ngoại tuyến khác, như trao đổi
một tập tin XML, có thể được lưu trữ tập tin qua CD-ROM, E- mail,
trong một hệ quản trị CSDL, tuy nhiên để FTP, download từ Net, v.v....
sử dụng đúng mục đích, người ta yêu cầu • Không khuyến cáo sử dụng các
tập tin chứa các thông tin metadata về mô hình client/server, các chuẩn
tài liệu phải được kèm theo tài liệu ngay trao đổi dữ liệu trên mạng phải
khi bắt đầu đưa tài liệu vào lưu trữ, quản lý sử dụng các phần mềm được viết
và trao đổi. riêng, các phương thức trao đổi
Sau đây là mô tả một quá trình trao dữ liệu trực tiếp từ CSDL như
đổi tài liệu điện tử toàn văn kèm theo nhân bản dữ liệu (database
thông tin metadata mà các hệ thống xử lý replication), đồng bộ dữ liệu
thông tin cần phải nhận biết và xử lý (database synchronization), các
chuẩn đặc thù khác như
• Nhập liệu bằng tay: hệ thống phải
cho phép người dùng tạo lập và lưu Z.39.50, OAI harvest protocol,
trữ các thông tin metadata mô tả tài vv....
liệu bằng tay khi bắt đầu đưa tài liệu IV. Sử dụng Dublin Core Metadata
vào quản lý và lưu trữ trong hệ thống cho mô tả văn bản hành chính
(chi tiết về các trường metadata nói ở Sau đây là thí dụ sử dụng chuẩn
ở phần sau) Dublin Core Metadata mô tả các văn
• Nhập liệu tự động: hệ thống phải bản đã và đang được số hoá trên hệ
có khả năng tự động đọc các thống quản lý văn bản của Ban Quản
thông tin metadata được gửi từ bên lý các dự án CNTT tại địa chỉ
ngoài tới hệ thống và xử lý theo cách http://itpmo.hochiminhcity.gov.vn
34
BẢN TIN THƯ VIỆN - CÔNG NGHỆ THÔNG TIN THÁNG 4/2004
35