Trong bối cảnh công nghệ ngày càng phát triển, một mô hình AI mang tên CATI-VLM đã ghi dấu ấn mạnh mẽ khi được xếp hạng 12 thế giới tại cuộc thi Robust Reading Competition (RRC) 2025. Đây là một thành tựu đáng tự hào của Việt Nam trong lĩnh vực trí tuệ nhân tạo, đặc biệt là trong việc đọc hiểu tài liệu dạng ảnh.
Nội dung chính
Cuộc thi RRC và sự tham gia của các tổ chức hàng đầu
Robust Reading Competition (RRC) là một sự kiện uy tín do Trung tâm Thị giác Máy tính thuộc Đại học Autònoma de Barcelona tổ chức. Cuộc thi thu hút sự tham gia của nhiều trường đại học, viện nghiên cứu và các tập đoàn công nghệ hàng đầu trên toàn cầu. Mục tiêu của RRC là thúc đẩy các giải pháp công nghệ trong lĩnh vực thị giác máy tính, từ dịch thuật đến quản lý dữ liệu và xử lý tài liệu lịch sử.
Thành tích ấn tượng của CATI-VLM
Trong bảng xếp hạng công bố vào tháng 6, mô hình CATI-VLM đã xuất sắc đứng thứ 12 trong hạng mục trả lời câu hỏi từ tài liệu hình ảnh (Document Visual Question Answering – DocVQA). Điều này không chỉ khẳng định khả năng vượt trội của mô hình mà còn thể hiện sự phát triển mạnh mẽ của công nghệ AI tại Việt Nam.
Công nghệ tiên tiến và khả năng phân tích vượt trội
CATI-VLM được phát triển từ một kho dữ liệu khổng lồ lên tới 5 TB, cho phép mô hình này không chỉ nhận diện ký tự mà còn phân tích cấu trúc bố cục của tài liệu. Mô hình có khả năng nhận diện các thành phần phi văn bản như checkbox, biểu đồ, chữ ký và công thức, đồng thời nắm bắt phong cách thể hiện như font chữ và các vùng được tô đậm.
Điểm đặc biệt của CATI-VLM là khả năng trả lời các câu hỏi từ hình ảnh tài liệu mà không cần phải học từ các biểu mẫu cụ thể, tương tự như cách mà các mô hình AI tiên tiến khác hoạt động. Mặc dù chỉ sử dụng ba tỷ tham số, CATI-VLM đã đạt được độ chính xác cao nhất trong 4/7 bộ dữ liệu, vượt qua nhiều sản phẩm của các tập đoàn công nghệ lớn.
Đội ngũ nghiên cứu và tầm nhìn tương lai
Đại diện nhóm nghiên cứu, TS. Đặng Minh Tuấn, Viện trưởng Viện Ứng dụng Công nghệ CMC, cho biết thành công này là minh chứng cho khả năng làm chủ công nghệ của Việt Nam trong việc giải quyết các bài toán đặc thù của ngôn ngữ và lĩnh vực chuyên ngành. Nhóm nghiên cứu đã tập trung vào việc tối ưu hóa hiệu suất và độ chính xác, thay vì chỉ chạy đua về số lượng tham số.
Ông Nguyễn Trung Chính, Chủ tịch CMC, nhấn mạnh rằng đây là kết quả của hơn 10 năm đầu tư vào nghiên cứu và phát triển, thể hiện chiến lược làm chủ công nghệ và hướng tới thị trường toàn cầu. Ông tin rằng trí tuệ Việt Nam hoàn toàn có khả năng sánh vai với các gã khổng lồ công nghệ thế giới.
Ứng dụng của CATI-VLM trong thực tiễn
Viện Ứng dụng Công nghệ CMC cho biết CATI-VLM sẽ được tích hợp vào chuỗi sản phẩm trong hệ sinh thái công nghệ của họ, bao gồm trợ lý ảo hỗ trợ rà soát văn bản pháp luật, nền tảng số hóa tài liệu, hệ thống quản trị tri thức và các ứng dụng xử lý tài liệu khác. Điều này không chỉ giúp nâng cao hiệu quả công việc mà còn mở ra nhiều cơ hội mới cho việc ứng dụng công nghệ AI trong đời sống.
Trọng Đạt
- Nền tảng AI hỗ trợ người khiếm thính giao tiếp của người Việt
- Những điểm nhấn AI nửa đầu 2025
- ‘Bão’ đơn xin việc AI