Microsoft chính thức công bố mô hình AI mới nhất Fara-7B vào ngày 24 tháng 11, mô hình với 7 tỷ tham số này được định vị là "AI Agent" sử dụng máy tính (Computer Use Agent, CUA), với điểm nổi bật là có thể chạy trực tiếp trên thiết bị cục bộ, không cần dựa vào sức mạnh tính toán đám mây, đồng thời đảm bảo hiệu suất cao và bảo mật dữ liệu.
Tập trung vào bảo mật dữ liệu doanh nghiệp, hỗ trợ thao tác "nhận thức hình ảnh"
Thiết kế cốt lõi của Fara-7B nhằm đáp ứng nhu cầu về quyền riêng tư và tuân thủ trong xử lý thông tin nhạy cảm của khách hàng doanh nghiệp. Do mô hình đủ tinh gọn, có thể chạy trên máy tính cá nhân, không chỉ giảm độ trễ mà còn tránh việc tải dữ liệu lên đám mây, giúp thực hiện tự động hóa cục bộ, ví dụ như quản lý tài khoản nội bộ, xử lý tài liệu mật và các tình huống khác.
Đặc điểm lớn nhất của mô hình này là sử dụng phương thức "nhìn màn hình để thao tác" để tương tác với trang web—thông qua chụp màn hình để đọc bố cục, sau đó dự đoán các thao tác như nhấp chuột, nhập liệu hoặc cuộn. Khác với phương pháp truyền thống dựa vào cấu trúc trình duyệt, Fara-7B hoàn toàn dựa trên dữ liệu cấp pixel để suy luận, do đó ngay cả với các trang web có cấu trúc mã lộn xộn cũng có thể hoạt động bình thường.
Yash Lara, quản lý sản phẩm tại Microsoft Research, cho biết Fara-7B xử lý đầu vào hình ảnh tại thiết bị cục bộ, thực hiện cái gọi là "chủ quyền pixel", cho phép các ngành được quản lý chặt chẽ như y tế, tài chính cũng có thể sử dụng một cách an tâm.
Kiểm nghiệm hiệu suất vượt trội hơn GPT-4o, mô hình nhỏ hiệu quả hơn
Trong tiêu chuẩn kiểm tra WebVoyager, tỷ lệ hoàn thành nhiệm vụ của Fara-7B đạt 73,5%, cao hơn so với 65,1% của GPT-4o và 66,4% của UI-TARS-1.5-7B. Ngoài ra, Fara-7B chỉ cần trung bình 16 bước để hoàn thành nhiệm vụ, rõ ràng tốt hơn so với 41 bước của UI-TARS-1.5-7B, đạt được sự cân bằng tối ưu giữa độ chính xác và hiệu quả.
Fara-7B cũng giới thiệu cơ chế "điểm kiểm tra quan trọng" (critical checkpoints), tự động tạm dừng và yêu cầu xác nhận khi gặp phải các thao tác liên quan đến thông tin cá nhân của người dùng hoặc các thao tác không thể đảo ngược (như gửi thư, chuyển tiền), kết hợp với giao diện tương tác "Magentic-UI", cung cấp hàng rào bảo vệ an toàn cho sự hợp tác giữa người và máy.
Chưng cất kiến thức và đào tạo theo mẫu chuyên gia, tăng cường tiềm năng học tập tự chủ
Fara-7B sử dụng phương pháp đào tạo "chưng cất kiến thức", tích hợp 145.000 ví dụ điều hướng thành công được tạo ra bởi hệ thống đa AI Agent Magentic-One, và nén chúng vào một mô hình duy nhất để học tập. Ngoài ra, mô hình nền tảng dựa trên Qwen2.5-VL-7B, có cửa sổ ngữ cảnh dài nhất là 128.000 token, với khả năng căn chỉnh hình ảnh-văn bản xuất sắc, quá trình đào tạo chủ yếu tập trung vào việc bắt chước các thao tác của chuyên gia con người.
Microsoft cho biết, trong tương lai họ sẽ không mù quáng theo đuổi các mô hình lớn hơn, mà tập trung vào việc tạo ra các mô hình "nhỏ gọn, thông minh và an toàn" hơn, và có kế hoạch đưa vào học tập tăng cường (RL) để tự đào tạo trong môi trường sandbox tổng hợp.
Đã mở mã nguồn, có thể tự do thử nghiệm thương mại nhưng chưa phải là sản phẩm chính thức
Hiện tại, Fara-7B đã được phát hành mã nguồn mở thông qua giấy phép MIT, có thể tải xuống và sử dụng trên nền tảng Hugging Face và Microsoft Foundry, cho phép sử dụng trong các ứng dụng thương mại. Tuy nhiên, Microsoft cũng lưu ý rằng mô hình này chưa đạt tiêu chuẩn triển khai môi trường sản xuất, hiện tại chủ yếu phù hợp cho các nhà phát triển sử dụng để thử nghiệm nguyên mẫu và xác minh chức năng.
- Đọc thêm: Google ra mắt WeatherNext 2 - mô hình AI dự báo thời tiết thế hệ mới, Pixel, tìm kiếm và Gemini được ưu tiên sử dụng
- Đọc thêm: Các nhà nghiên cứu phát hiện cách hỏi đơn giản giúp AI trở nên sáng tạo hơn, áp dụng được với mọi mô hình AI như ChatGPT, Gemini
- Đọc thêm: Anthropic công bố mô hình AI nhỏ Claude Haiku 4.5: chỉ bằng 1/3 chi phí, hiệu suất ngang với Sonnet 4, thậm chí vượt trội trong lập trình


