0

    Không có sản phẩm nào trong giỏ hàng.

NGHIÊN CỨU BỘ THƯ VIỆN BIGGORILLA TRONG VIỆC KHAI THÁC, THU THẬP VÀ TỔNG HỢP DỮ LIỆU VĂN BẢN TRÊN WEB XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM BẰNG NGÔN NGỮ PYTHON

Cho đến nay, có một số  phương pháp được sử dụng để thu thập dữ liệu văn bản trên web, phổ biến như dùng excel[1] , VBA[2] . Nhưng hầu hết chúng đều chỉ hỗ trợ cho chức năng thu thập dữ liệu. Giả sử một công ty trong ngành công nghệ muốn xem xét tình hình tuyển dụng của các công ty khác trong cùng lĩnh vực mà họ đang hoạt động để có thể đưa ra hướng đi phù hợp trong tương lai, nhưng với khả năng mà các phương pháp hiện tại cung cấp thì khó có thể giúp trong việc đưa ra quyết định. Với thư viện mà chúng tôi đã xây dựng, người dùng có thể thu thập, khai thác dữ liệu từ web và sau đó tổng hợp chúng lại với nhau.

Cần có một phương pháp hỗ trợ trong việc thu thập, khai thác và tổng hợp dữ liệu. Chính vì vậy, chúng tôi đề xuất đề tài Nghiên cứu bộ thư viện BigGorilla trong việc khai thác, thu thập và tổng hợp dữ liệu văn bản trên web. Xây dựng chương trình thực nghiệm bằng ngôn ngữ Python”, nhằm hỗ trợ thu thập, khai thác và tổng hợp dữ liệu từ web một cách dễ dàng, nhanh chống.

Mục tiêu của đề tài

Hiểu về ngôn ngữ lập trình Python,

Hiểu bộ thư viện BigGorilla, gồm các gói: Data Acquisition, Extraction, and Cleaning; Entity Matching; Schema Matching and Mapping; Additional Data Preparation Tools,

Xây dựng một thư viện hỗ trợ trong việc thu thập, khai thác và tổng hợp dữ liệu văn bản trên website bằng việc dùng các thư viện trên.

Nội dung nghiên cứu chính

Tìm hiểu ngôn ngữ Python,

Tìm hiểu bộ thư viện BigGorilla, gồm các gói: Data Acquisition, Extraction, and Cleaning; Additional Data Preparation Tools,

Demo minh họa việc áp dụng các thư viện trên để thu thập và xây dựng một tập dữ liệu thuộc một lĩnh vực cụ thể: Data Acquisition, Extraction, and Cleaning; Entity Matching; Schema Matching and Mapping; Additional Data Preparation Tools.

 

 

Sản phẩm gợi ý

Sản phẩm tương tự