Lỗ hổng xử lý PDF trong thư viện Apache Tika

15:35 | 09/12/2025

Các nhà nghiên cứu vừa đưa ra cảnh báo về một lỗ hổng nghiêm trọng vừa được công bố trong Apache Tika. Với mã định danh CVE-2025-66516 (điểm CVSS: 10.0), lỗ hổng cho phép tin tặc có thể thực hiện tấn công XML External Entity thông qua các tệp XFA được nhúng trong tài liệu PDF.

Khi máy chủ xử lý tài liệu chứa tệp XFA độc hại, kẻ tấn công có thể can thiệp vào quá trình phân tích XML của ứng dụng và chiếm quyền truy cập vào các tệp trong hệ thống, đánh cắp dữ liệu nội bộ hoặc khiến dịch vụ ngừng hoạt động. Một số trường hợp nghiêm trọng thậm chí có thể dẫn đến thực thi mã từ xa tùy theo cấu hình hệ thống.

Điểm đáng chú ý của lỗ hổng nằm ở phạm vi ảnh hưởng rộng hơn nhiều so với đánh giá ban đầu. Apache Tika cho biết, CVE-2025-66516 về bản chất là việc mở rộng phạm vi của lỗ hổng XXE đã được vá trước đó là CVE-2025-54988. Theo các nhà nghiên cứu, lỗi xuất phát từ mô-đun tika-core, biến nhiều hệ thống tưởng chừng đã an toàn thành mục tiêu tiếp tục bị khai thác vì chỉ cập nhật mô-đun PDF mà không nâng cấp core.

Các phiên bản bị ảnh hưởng bao gồm: tika-core từ 1.13 đến 3.2.1; tika-parser-pdf-module từ 2.0.0 đến 3.2.1; tika-parsers từ 1.13 đến trước 2.0.0.

Mọi nền tảng đều có nguy cơ bị tấn công vì lỗi không phụ thuộc hệ điều hành. Điều này đặt ra rủi ro lớn cho các hệ thống xử lý tài liệu tự động, đặc biệt trong môi trường doanh nghiệp thường xuyên tiếp nhận PDF từ nguồn không xác thực.

Đội ngũ Apache Tika cũng chỉ ra một thiếu sót trong cảnh báo về CVE-2025-54988. Ở dòng sản phẩm tika 1.x, PDFParser không tồn tại dưới dạng mô-đun độc lập mà được tích hợp thẳng trong gói tika-parsers. Điều này khiến nhiều triển khai đời cũ không được cập nhật đúng phạm vi trong khuyến nghị trước đó và vô tình duy trì lỗ hổng trong hệ thống.

Để khắc phục hoàn toàn, người dùng cần nâng cấp tika-core lên phiên bản 3.2.2 trở lên. Các hệ thống sử dụng tika 1.x phải chuyển sang phiên bản tika-parsers 2.0.0 hoặc mới hơn để loại bỏ điểm yếu. Việc triển khai bản vá cần được ưu tiên hàng đầu vì khả năng khai thác qua PDF độc hại diễn ra âm thầm và có thể gây hậu quả nghiêm trọng cho toàn bộ hạ tầng.

Người dùng được khuyến nghị rà soát lại toàn bộ môi trường triển khai Apache Tika để đảm bảo tất cả thành phần liên quan đã được cập nhật. Với mức độ nghiêm trọng được xếp tối đa và khả năng khai thác qua tài liệu phổ biến như PDF, lỗ hổng này cần được xử lý khẩn cấp nhằm ngăn chặn rủi ro xâm nhập và rò rỉ dữ liệu.

Để lại bình luận