NGHIÊN CỨU BỘ THƯ VIỆN BIGGORILLA
KHAI THÁC, THU THẬP VÀ TỔNG HỢP DỮ LIỆU VĂN BẢN TRÊN WEB
XÂY DỰNG CHƯƠNG TRÌNH THỰC NGHIỆM BẰNG NGÔN NGỮ PYTHON
Ngày nay, cùng với sự phát triển mạnh mẽ của công nghệ thông tin, hầu hết các ứng dụng tin học đã được ứng dụng trong mọi lĩnh vực khoa học cũng như trong đời sống con người. Nó đã trở thành công cụ hữu ích cho con người trong việc lưu trữ, xử lý thông tin một cách nhanh chóng, giúp đem lại hiệu quả cao hơn. Vì vậy việc ứng dụng công nghệ thông tin trong công tác quản lý đang từng bước khẳng định được sức mạnh của mình.
Bên cạnh sự phát triển đó thìlượng dữ liệucũng trở nên phát triển một cách nhanh chóng, nhưng phân lớn dữ liệu hiện tại vẫn còn rất hỗn loạn và trùng lặp rất nhiều. Vấn đề đặt ra là cần có một chương trình mà nó có thể thu thập, tổng hợp, phân tích và từ đó tạo ra một nguồn dữ liệu sạch (nghĩa là nó đã được trích lọc) để đem đến những lợi ích cao hơn.
Do vậy việc xây dựng một chương trình có thể thu thập, tổng hợp, phân tích dữ liệu là một việc cần thiết. Đó cũng là lý do chúng tôi chọn đề tài “Nghiên cứu bộ thư viện BigGorilla trong việc khai thác, thu thập và tổng hợp dữ liệu văn bản trên web. Xây dựng chương trình thực nghiệm bằng ngôn ngữ Python”.
Trong gia đoạn nay chúng tôi tập trung vào các mục đích sau:
+ Tìm hiểu về ngôn ngữ lập trình Python.
+ Tìm hiểu bộ thư viện BigGorilla, gồm các gói: Data Acquisition, Extraction, and Cleaning; Entity Matching; Schema Matching and Mapping; Additional Data Preparation Tools.
+ Demo minh họa việc khai thác, thu thập và tổng hợp dữ liệu văn bản trên web (dữ liệu hồ sơ ứng viên tìm việc, hoặc dữ liệu khác…) bằng việc dùng các thư viện trên.
Đối tượng mà chúng tôi tiến thành nghiên cứu là bộ thư viện BigGorilla. Trong gia đoạn này chúng tôi sẽ tập trung chủ yếu vào tìm hiểu các vấn đề liên quan về mặt lý thuyết của bộ công cụ BigGorilla và thực hiện ví dụ về nó. Từ đó có thể nâng cao thêm kiến thức nhằm phục vụ cho công tác nghiên cứu sâu hơn về bộ công cụ hữu ích này trong tương lai gần.
Tìm hiểu ngôn ngữ lập trình Python; các thự viện của Python trong hỗ trợ thu thập xử lý dữ liệu lớn; tìm hiểu tổng quan về phương diện lý thuyết của bộ công cụ BigGorilla trong việc khai thác, thu thập và tổng hợp dữ liệu văn bản trên web, từ đó hiểu được cơ chế hoạt động của bộ công cụ BigGorilla và thực hiện thành công ví vụ có liên quan đến bộ công vụ này.
Để thực hiện đề tài này chúng tôi sử dụng hai phương pháp nghiên cứu chính đó là:
+ Phương pháp phân tích và tổng hợp lý thuyết: Phân tích lý thuyết nghiên cứu các văn bản, các tài liệu khác nhau về một chủ đề, từ đó liên kết từng mặt, từng bộ phân thông tin quan trọng, phù hợp nhằm mục đích phục vụ cho đề tài nghiên cứu của mình.
+ Phương pháp phân loại, hệ thống hóa lý thuyết: Sắp xếp các tài liệu khoa học thành một hệ thống logic, chặt chẽ theo từng mặt, từng nhóm kiến thức, từng vấn đề khoa học có cùng bản chất, cùng một hướng phát triển.
Mục đích cuối cùng của để tài mà chúng tôi đang nghiên cứu là tạo ra được một chương trình có thể khai thác, thu thập và tổng hợp dữ liệu, qua đó chuyển dữ liệu từ nhiều nguồn khác nhau mà những nguồn này đã sẵn có trên web (nhưng ở các nguồn đó dữ liệu vẫn còn rất hỗn loạn) trở thànhnhững nguồn dữ liệu có cấu trúc một cách rõ ràng, qua đó giúp nâng cao hơn giá trị của dữ liệu đối với con người.
Đề tài gồm có 3 phần:
- PHẦN I PHẦN MỞ ĐẦU:Gồm những thông tin khái quát về đề tài như lý do chọn đề tài, mục đích nghiên cứu, đối tượng và phạm vi nghiên cứu, nội dung và nhiệm vụ nghiên cứu, phương pháp nghiên cứu, đóng góp của đề tài, cấu trúc đề tài.
- PHẦN II NỘI DUNG:
+ Chương 1: Tổng quan về bộ công cụ BigGorilla
+ Chương 2: Cơ sở lý thuyết
+ Chương 3: Ứng dụng
- PHẦN III KẾT LUẬN: Nêu lên được ứng dụng và ý nghĩa của đề tài và qua đó đưa ra kết luận chung về đề tài đang nghiên cứu.