[Semantic Web] Phần 2: Tổng quan RDF

355 lượt xem

Trong bài viết này, chúng ta sẽ tìm hiểu một số kiến thức tổng quan của RDF và vai trò của RDF đối với Semantic Web.

1. Khái niệm
RDF (viết tắt từ Resource Description Framework, tạm dịch là Framework Mô tả Tài nguyên) có nguồn gốc tạo ra từ đầu năm 1999 bởi tổ chức W3C như là 1 tiêu chuẩn để mã hóa siêu dữ liệu (metadata). Tên RDF được giới thiệu chính thức trong các tài liệu đặc tả của W3C với nội dung sơ lược.
rdf
Nội dung thông tin Web được phục vụ chủ yếu cho con người, và máy móc không thể đọc và hiểu được nội dung này. Do đó, rất khó để tự động hóa bất cứ nội dung nào trên Web, ít nhất trên quy mô lớn. Hơn nữa, với lượng thông tin khổng lồ trên Web, chúng ta không thể xử lý chúng chỉ bằng phương pháp thủ công. Vì vậy, W3C đề xuất một giải pháp để mô tả dữ liệu trên Web và có thể được hiểu bởi máy móc, đó chính là RDF.

Năm 2004, nhóm làm việc chính về RDF (RDF Core Working Group) tổng hợp bản cập nhật RDF từ các đặc tả từ 6 tài liệu. Dựa trên các tài liệu này, RDF được định nghĩa theo các cách sau:

  • RDF là 1 ngôn ngữ thể hiện thông tin về các tài nguyên web. (theo tài liệu RDF Primer)
  • RDF là 1 framework cho việc thể hiện thông tin trên web (theo tài liệu RDF Concept)
  • RDF là 1 ngôn ngữ mục đích chung cho việc thể hiện thông tin trên Web (theo tài liệu RDF Syntax và tài liệu RDF Schema);
  • RDF là 1 ngôn ngữ xác nhận được dùng để diễn tả các giới từ dùng các từ vựng chính thức chính xác, đặc biệt là những từ được đặc tả dùng RDFS, để truy cập và sử dụng trên Web, và có ý định để cung cấp 1 nền tảng cơ bản cho các ngôn ngữ xác nhận nâng cao với mục đích tương tự (theo tài liệu RDF Semantics).

2. Ví dụ

Trong phần này, chúng ta sẽ xem xét 1 ví dụ để thấy rõ hơn về RDF. Công ty Amazon có một website bán máy ảnh với nhiều sản phẩm được đánh giá bởi người dùng. Website này cũng chứa 1 diễn đàn thảo luận, nơi các thành viên tham gia đóng góp ý kiến về chất lượng sản phẩm. Các đánh giá được đăng tải trên website để các khách hàng tham khảo quyết định có nên mua sản phẩm nào đó hay không. Tuy nhiên, để mua 1 sản phẩm ưng ý, khách hàng phải đọc hết toàn bộ đánh giá, kèm theo là so sánh giá cả giữa các mặt hàng. Đôi khi điều này mất thời gian và gây ra sự lúng túng với khách hàng.

Hình dung, bạn là kỹ sư đánh giá chất lượng của công ty Amazon. Nhiệm vụ của bạn là đọc tất cả đánh giá của khách hàng và tổng hợp báo cáo gửi sếp. Phải nói là công việc này rất chán, đôi khi bạn đọc cả hàng nghìn đánh giá cho nhiều sản phẩm khác nhau chỉ để tạo 1 bản báo cáo ngắn gọn. Đó là chưa kể, có lúc bạn không muốn mất thời gian đọc tất cả đánh giá, mà chỉ đọc 1 vài đánh giá để tổng hợp, như vậy bản báo cáo sẽ không có kết quả chính xác nhất.

Như vậy, giải pháp là gì? Đó chính là bạn viết 1 chương trình cho phép đọc tất cả các đánh giá và tự động phát sinh báo cáo chỉ trong vòng vài phút. Hơn nữa, bạn có thể chạy liên tục chương trình này, bất cứ khi nào bạn muốn, để cập nhật các thông tin mới nhất. Như vậy, ý tưởng này khá hay nhưng không dễ xây dựng, vì máy móc không thể hiểu được các nội dung đánh giá do con người viết ra. Để giải quyết chuyện này, bạn phải xây dựng các đánh giá theo 1 tiêu  chuẩn nào đó để dễ dàng tổng hợp các đánh giá.

Một sản phẩm máy ảnh được đánh giá theo thang đo từ 1 đến 5 sao với 4 thuộc tính: dễ sử dụng, các tính năng, chất lượng hình ảnh và tính di động. Tiếp đến chúng ta có thể xây dựng 1 mô hình dựa trên thông tin sản phẩm và 1 đánh giá của khách hàng với máy ảnh có tên là Nikon_D7000 như sau.

rdf_diagram_camera

Mô hình trên mang tính mềm dẻo và có thể phát triển thêm 1 cách dễ dàng, từ mô hình chúng ta có thể xây dựng 1 bảng như sau:
rdf_table_camera

Bảng trên diễn giải chính xác như mô hình, mỗi dòng trong bảng là 1 mũi tên như trong mô hình, bao gồm nút bắt đầu (start node), nút đỉnh (edge node) với mũi tên và nút kết thúc. Chúng ta sẽ hiểu 1 máy ảnh như Nikon_D7000 có các quan hệ sau:

  • Nikon_D7000 là 1 loại máy ảnh (Camera)
  • Nikon_D7000 được sản xuất bởi hãng Nikon
  • Nikon_D7000 có tính năng (nền tảng) là chất lượng hình ảnh (PictureQuality)
  • Nikon_D7000 là dòng máy (model) D7000
  • Nikon_D7000 có trọng lượng là 0.6 kg
  • Chất lượng hình ảnh (PictureQuality) được đánh giá là 5 sao

Như vậy nếu tất cả đánh giá của khách hàng được xây dựng theo thang đánh giá này thì rất dễ dàng cho chúng ta đánh giá chất lượng sản phẩm, đồng thời giúp chương trình nhận diện đọc các thông số và đưa ra báo cáo kết quả. Mô hình này có thể chưa hoàn toàn đầy đủ để đánh giá sản phẩm và cần thêm các thông số khác, tuy nhiên chúng ta đã có nhưng điểm chính để hiểu RDF là gì và cách xây dựng, áp dụng vào mô hình RDF vào đánh giá sản phẩm.

Tới đây, chúng ta có thể định nghĩa RDF như sau: “RDF là 1 tiêu chuẩn của W3c được dùng để thể hiện thông tin/kiến thức phân tán theo cách các chương trình máy tính có thể hiểu và xử lý trong bối cảnh mở rộng (về mặt dữ liệu, nội dung)”.

Vui lòng trích dẫn địa chỉ website nếu sao chép hoặc tổng hợp thông tin từ website này.

Bình luận Facebook

Để lại bình luận

Be the First to Comment!

Notify of
avatar
1000
wpDiscuz