230.Tìm hiểu MLlib trên Spark, xây dựng ứng dụng phân loại dữ liệu

Chi tiết

Hầu như không thể ưu tiên giảm thiểu rủi ro hoặc tuân thủ luật bảo mật khi chúng ta không biết thông tin nào cần được bảo vệ theo cấp quân sự. Đây là nơi xuất hiện khái niệm phân loại dữ liệu (Data Classification). Data classification hay phân loại dữ liệu là công việc sắp xếp các dữ liệu dựa theo những tiêu chí khác nhau được đặt ra, hay mức độ tần suất truy cập sử dụng data. Dựa vào những yếu tố trên để tiến hành phân loại theo nhiều tầng lớp và mức độ khác nhau cho từng loại dữ liệu. Ví dụ, phân loại là một nhóm có hệ thống các quan sát thành các loại, chẳng hạn như khi các nhà sinh vật học phân loại thực vật, động vật và các dạng sống khác thành các đơn vị phân loại khác nhau [10]; ứng dụng trong các hệ thống công ty để phân loại các dữ liệu khác nhau để dễ dàng tập hợp, xử lý về sau; phân loại từ vựng tiếng Anh; phân loại mail theo chủ đề…Trong đó, ứng dụng phân loại dữ liệu vào bài toán phân loại mail theo chủ đề là bài toán giúp ích cho các công ty kinh doanh về một lĩnh vực nhất định nào đó. Từ đó có thể dễ dàng quản lý mail, nhanh chóng xác định nội dung Mail thay vì phải đọc từng mail để xác định được nội dung, nhanh chóng phản hổi mail cho người dùng, giúp ích tiết kiệm thời gian, cũng như chi phí, nhân lực cho công ty.

Tóm tắt nội dung bài luận văn gồm các chương sau:

Chương 1. Tổng quan. Giới thiệu về bài toán phân loại mail, giới thiệu một số hướng tiếp cận, ưu nhược điểm của các hướng tiếp cận, khó khăn và thách thức. Cuối cùng là hướng giải quyết.

Chương 2. Cơ sở lý thuyết. Trình bày cơ sở lý thuyết của đề tài gồm: Machine Learning với Spark (MLlib with Spark), thuật toán Hồi quy Logistic (Logistic Regression), MADlib.

Chương 3. Xây dựng ứng dụng. Trình bày cách xây dựng mô hình cụ thể cho bài toán phân loại mail theo chủ đề.

Chương 4. Thực nghiệm và Kết quả ứng dụng. Trình bày kết quả thực nghiệm và hướng phát triển của đề tài