Nén ảnh theo chuẩn JPEG

Chi tiết

Nén ảnh theo chuẩn JPEG

Bài đăng này đã không được cập nhật trong 2 năm

Giới thiệu chuẩn JPEG

JPEG là một tiêu chuẩn nén ảnh được áp dụng trong nhiều lĩnh vực: Lưu trữ ảnh, Fax màu, camera số,…
Công nghệ JPEG nén hiệu quả với tỷ lệ đạt mức vài chục lần (hệ số nén 80:1)
Xử lý tốt mất mát thông tin trong quá trình nén khiến người nhìn không nhận ra sự khác biệt
Ảnh đã nén sau khi giải mã trùng khớp với ảnh ban đầu
Nguyên lý nén đơn giản, dựa vào sự thiếu nhạy cảm của mắt người với không gian màu U,V để ẩn giấu các thông tin dư thừa trong ảnh

Quy trình nén JPEG

Sơ đồ nén tổng quát

1.Chuyển ảnh ban đầu thành các block 8x8

Block là một ma trận điểm ảnh 8x8 pixel

Mục đích: tính toán DCT cho từng vùng dư thừa dữ liệu khác nhau

Tất cả các block có cùng kích thước và mỗi block là một ma trận điểm ảnh 8×8 pixel được lấy từ một ảnh màn hình theo chiều từ trái sang phải, từ trên xuống dưới. Kích thước block là 8×8 được chọn bởi hai lý do sau:

Kích thước block lớn làm tăng độ phức tạp thuật toán
Khoảng cách giữa các pixel vượt quá 8 sẽ làm cho hàm tương quan suy giảm nhanh

2.Biến đổi Cosin rời rạc DCT (Discrete Cosine Transform)

DCT (Discrete Cosine Transform): biến đổi dữ liệu dưới dạng biên độ thành dữ liệu dưới dạng tần số. Mục đích: loại bỏ sự dư thừa dữ liệu trong không gian DCT chia thành 2 loại:

DCT một chiều.
DCT hai chiều.

Thuật toán DCT là phần quan trọng nhất trong nén ảnh JPEG, mình sẽ sử dụng DCT hai chiều cho code nên trong bài viết này mình xin giới thiệu qua về DCT-2d

Chú thích:

Hình ảnh đầu vào là N by M;
f (i, j) là cường độ của pixel trong hàng i và cột j;
F (u, v) là hệ số DCT trong hàng k1 và cột k2 của ma trận DCT.
Đối với hầu hết các hình ảnh, phần lớn năng lượng tín hiệu nằm ở tần số thấp; chúng xuất hiện ở góc trên bên trái của DCT.
Nén được thực hiện do các giá trị bên phải thấp hơn biểu thị tần số cao hơn và thường nhỏ - đủ nhỏ để bị bỏ qua với ít biến dạng có thể nhìn thấy.
Đầu vào DCT là một mảng 8-8 số nguyên. Mảng này chứa mức độ thang màu xám của mỗi pixel;
Pixel 8 bit có các mức từ 0 đến 255.

3.Lượng tử hóa

Chức năng cơ bản: chia các hệ số F(u,v) cho các hệ số ở vị trí tương ứng trong bảng lượng tử Q(u,v) để biểu diễn số lần nhỏ hơn các giá trị cho phép của hệ số DCT:

Fq(u,v)=[F(u,v)/Q(u,v)]

Trong phần lượng tử hóa, để biến đổi mảng hai chiều các hệ số Fq(u,v) thành một chuối số một chiều ta sử dụng qua thuật toán zigzag

Thu được kết quả là một chuỗi các số của ma trận cũ được lấy theo hình zigzag từ ô thứ nhất đến ô cuối cùng.

4.Mã hóa entropy

Mục đích: Làm giảm độ dư thừa thống kê trong các phần tử được mã hóa để truyền

Mã hóa entropy sử dụng mã hóa VLC và mã hóa RLC

RLC (Run Length Code): mã hóa độ dài chạy thực hiện mã hóa một hệ số khác 0 sau giá trị DC bằng một từ mã
VLC (Variable Length Code): Mã hóa độ dài biến đổi được thực thi bằng cách đặt các từ mã ngắn cho các mức có xác suất xuất hiện cao và các từ mã dài cho các mức có xác suất xuất hiện thấp.