0

    Không có sản phẩm nào trong giỏ hàng.

PHÂN LOẠI VĂN BẢN THEO CHỦ ĐỀ

BÀI TOÁN PHÂN LOẠI VĂN BẢN THEO CHỦ ĐỀ

Bài toán phân loại văn bản có thể được phát biểu như sau: cho trước một tập văn bản D={d1,d2,..., dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}.

Phân tích thiết kế hệ thống chương trình

Mô tả bài toán

Công việc phân loại văn bản là một quy trình bao gồm nhiều bước: đọc văn bản, xử lý thông tin sơ bộ, đối chiếu với mẫu văn bản phân loại, phân loại văn bản theo mẫu, thống kê văn bản đã phân loại.

Đây là một quy trình phức tạp, dễ gây nhầm lẫn. Ngoài ra với số lượng văn bản nhiều việc phân loại sẽ gặp nhiều khó khăn. Công tác lưu trữ và thống kê văn bản đã phân loại chậm ảnh hưởng đến quy trình hoạt động của hệ thống.

Vì vậy việc áp dụng công nghệ thông tin vào quy trình này là cần thiết. Chương trình phân loại văn bản sẽ giải quyết được những khó khăn cũng như tăng tốc độ xử lý văn bản, thuận tiện hơn với khối lượng văn bản nhiều.​​​​​​​Xác định quy trình làm việc của văn bản

+ Nạp dữ liệu văn bản và chuẩn hóa.

+ Xây dựng từ điển từ rút gọn tạm thời.

+ Đối chiếu và phân loại văn bản.

+ Thống kê văn bản phân loại.​​​​​​​

Yêu cầu của chương trình

+ Chương trình nhập văn bản xử lý theo kiểu nhập file text có sẵn trong máy.

+ Chương trình hoạt động theo từng bước theo yêu cầu của người dùng: xử lý văn bản, phân loại văn bản.

+ Chương trình hiện ra cho người dùng thấy được từ điển đầy đủ, từ điển rút gọn của từng thể loại văn bản, phiên dịch.

+ Chương trình hiện danh sách những văn bản đã xử lý, những văn bản đã phân loại.

Sản phẩm gợi ý

Sản phẩm tương tự