Mô hình AI mới nhất của Microsoft Fara-7B, nhấn mạnh khả năng chạy cục bộ và bảo mật dữ liệu, giúp doanh nghiệp an tâm sử dụng. Fara-7B sở hữu hiệu năng vượt trội, thông qua thao tác cảm nhận hình ảnh, hoàn thành các tác vụ phức tạp, thể hiện tiềm năng vô hạn của mô hình AI. Microsoft đã chính thức công bố mô hình AI mới nhất Fara-7B vào ngày 24 tháng 11, mô hình với 7 tỷ tham số này được định vị là "AI Agent" sử dụng máy tính (Computer Use Agent, CUA), với điểm nhấn là khả năng chạy trực tiếp trên thiết bị cục bộ, không cần dựa vào sức mạnh điện toán đám mây, đồng thời đảm bảo hiệu suất cao và bảo mật dữ liệu. Tập trung vào bảo mật dữ liệu doanh nghiệp, hỗ trợ thao tác "cảm nhận hình ảnh" Thiết kế cốt lõi của Fara-7B nhằm đáp ứng nhu cầu về quyền riêng tư và tuân thủ quy định khi xử lý thông tin nhạy cảm của khách hàng doanh nghiệp. Do mô hình đủ tinh gọn, có thể chạy trên máy tính cá nhân, không chỉ giảm độ trễ mà còn tránh việc tải dữ liệu lên đám mây, góp phần thực hiện tự động hóa cục bộ, ví dụ như sử dụng trong quản lý tài khoản nội bộ, xử lý tài liệu mật và các tình huống tương tự. Đặc điểm nổi bật nhất của mô hình này là sử dụng phương thức "nhìn màn hình để thao tác" khi tương tác với trang web—thông qua ảnh chụp màn hình để đọc bố cục giao diện, sau đó dự đoán các thao tác như nhấp chuột, nhập liệu hoặc cuộn trang. Khác với phương pháp truyền thống dựa vào cấu trúc trình duyệt, Fara-7B hoàn toàn dựa trên dữ liệu cấp pixel để suy luận, do đó ngay cả với các trang web có cấu trúc mã lập trình phức tạp cũng có thể hoạt động bình thường. Yash Lara, quản lý sản phẩm của Viện Nghiên cứu Microsoft cho biết, Fara-7B thông qua xử lý đầu vào hình ảnh tại thiết bị cục bộ, thực hiện cái gọi là "chủ quyền pixel", giúp các ngành được quản lý chặt chẽ như y tế, tài chính cũng có thể an tâm sử dụng. Hiệu suất thực tế vượt qua GPT-4o, mô hình nhỏ nhưng hiệu quả hơn Trong tiêu chuẩn kiểm tra WebVoyager, tỷ lệ hoàn thành nhiệm vụ của Fara-7B đạt 73,5%, cao hơn so với 65,1% của GPT-4o và 66,4% của UI-TARS-1.5-7B. Ngoài ra, Fara-7B chỉ cần trung bình 16 bước để hoàn thành nhiệm vụ, rõ ràng tốt hơn so với 41 bước của UI-TARS-1.5-7B, đạt được sự cân bằng tối ưu giữa độ chính xác và hiệu quả. Fara-7B đồng thời giới thiệu cơ chế "điểm kiểm tra quan trọng" (critical checkpoints), tự động tạm dừng và yêu cầu xác nhận khi gặp các thao tác liên quan đến thông tin cá nhân của người dùng hoặc các thao tác không thể hoàn tác (như gửi thư, chuyển tiền), kết hợp với giao diện tương tác "Magentic-UI", cung cấp hàng rào an toàn cho sự hợp tác giữa người và máy. Chưng cất kiến thức và đào tạo mô phỏng chuyên gia, tăng cường tiềm năng học tập tự chủ Fara-7B áp dụng phương pháp đào tạo "chưng cất kiến thức", tích hợp 145,000 ví dụ điều hướng thành công được tạo ra bởi hệ thống đa tác nhân Magentic-One, và nén chúng vào một mô hình duy nhất để học tập. Ngoài ra, mô hình nền tảng dựa trên Qwen2.5-VL-7B, sở hữu cửa sổ ngữ cảnh lên đến 128,000 token, với khả năng căn chỉnh hình ảnh-văn bản xuất sắc, quá trình đào tạo chủ yếu tập trung vào việc bắt chước thao tác của chuyên gia con người. Microsoft cho biết, trong tương lai họ sẽ không mù quáng theo đuổi các mô hình lớn hơn, mà tập trung vào việc xây dựng các mô hình "nhỏ gọn, thông minh và an toàn" hơn, đồng thời có kế hoạch đưa vào học tập tăng cường (RL) trong môi trường sandbox tổng hợp để tự đào tạo. Đã mở mã nguồn, có thể tự do thử nghiệm thương mại nhưng chưa phải là sản phẩm chính thức Hiện tại Fara-7B đã được phát hành mã nguồn mở thông qua giấy phép MIT, có thể tải xuống và sử dụng trên nền tảng Hugging Face và Microsoft Foundry, cho phép sử dụng trong các ứng dụng thương mại. Tuy nhiên, Microsoft cũng lưu ý rằng mô hình này chưa đạt tiêu chuẩn triển khai môi trường sản xuất, hiện tại chủ yếu phù hợp cho các nhà phát triển sử dụng để thử nghiệm nguyên mẫu và xác minh chức năng. Đọc thêm: Google ra mắt WeatherNext 2 - mô hình AI dự báo thời tiết thế hệ mới, Pixel, tìm kiếm, Gemini được ưu tiên sử dụng Đọc thêm: Các nhà nghiên cứu phát hiện phương pháp đặt câu hỏi đơn giản giúp AI trở nên sáng tạo hơn, áp dụng được cho mọi mô hình AI như ChatGPT, Gemini Đọc thêm: Anthropic công bố Claude Haiku 4.5 - mô hình AI nhỏ gọn: chỉ bằng 1/3 chi phí, hiệu suất ngang tầm Sonnet 4, thậm chí vượt trội trong lập trình Tham gia cộng đồng Facebook của T客邦Mô hình AI mới nhất của Microsoft Fara-7B, nhấn mạnh khả năng chạy cục bộ và bảo mật dữ liệu, giúp doanh nghiệp an tâm sử dụng. Fara-7B sở hữu hiệu năng vượt trội, thông qua thao tác cảm nhận hình ảnh, hoàn thành các tác vụ phức tạp, thể hiện tiềm năng vô hạn của mô hình AI. Microsoft đã chính thức công bố mô hình AI mới nhất Fara-7B vào ngày 24 tháng 11, mô hình với 7 tỷ tham số này được định vị là "AI Agent" sử dụng máy tính (Computer Use Agent, CUA), với điểm nhấn là khả năng chạy trực tiếp trên thiết bị cục bộ, không cần dựa vào sức mạnh điện toán đám mây, đồng thời đảm bảo hiệu suất cao và bảo mật dữ liệu. Tập trung vào bảo mật dữ liệu doanh nghiệp, hỗ trợ thao tác "cảm nhận hình ảnh" Thiết kế cốt lõi của Fara-7B nhằm đáp ứng nhu cầu về quyền riêng tư và tuân thủ quy định khi xử lý thông tin nhạy cảm của khách hàng doanh nghiệp. Do mô hình đủ tinh gọn, có thể chạy trên máy tính cá nhân, không chỉ giảm độ trễ mà còn tránh việc tải dữ liệu lên đám mây, góp phần thực hiện tự động hóa cục bộ, ví dụ như sử dụng trong quản lý tài khoản nội bộ, xử lý tài liệu mật và các tình huống tương tự. Đặc điểm nổi bật nhất của mô hình này là sử dụng phương thức "nhìn màn hình để thao tác" khi tương tác với trang web—thông qua ảnh chụp màn hình để đọc bố cục giao diện, sau đó dự đoán các thao tác như nhấp chuột, nhập liệu hoặc cuộn trang. Khác với phương pháp truyền thống dựa vào cấu trúc trình duyệt, Fara-7B hoàn toàn dựa trên dữ liệu cấp pixel để suy luận, do đó ngay cả với các trang web có cấu trúc mã lập trình phức tạp cũng có thể hoạt động bình thường. Yash Lara, quản lý sản phẩm của Viện Nghiên cứu Microsoft cho biết, Fara-7B thông qua xử lý đầu vào hình ảnh tại thiết bị cục bộ, thực hiện cái gọi là "chủ quyền pixel", giúp các ngành được quản lý chặt chẽ như y tế, tài chính cũng có thể an tâm sử dụng. Hiệu suất thực tế vượt qua GPT-4o, mô hình nhỏ nhưng hiệu quả hơn Trong tiêu chuẩn kiểm tra WebVoyager, tỷ lệ hoàn thành nhiệm vụ của Fara-7B đạt 73,5%, cao hơn so với 65,1% của GPT-4o và 66,4% của UI-TARS-1.5-7B. Ngoài ra, Fara-7B chỉ cần trung bình 16 bước để hoàn thành nhiệm vụ, rõ ràng tốt hơn so với 41 bước của UI-TARS-1.5-7B, đạt được sự cân bằng tối ưu giữa độ chính xác và hiệu quả. Fara-7B đồng thời giới thiệu cơ chế "điểm kiểm tra quan trọng" (critical checkpoints), tự động tạm dừng và yêu cầu xác nhận khi gặp các thao tác liên quan đến thông tin cá nhân của người dùng hoặc các thao tác không thể hoàn tác (như gửi thư, chuyển tiền), kết hợp với giao diện tương tác "Magentic-UI", cung cấp hàng rào an toàn cho sự hợp tác giữa người và máy. Chưng cất kiến thức và đào tạo mô phỏng chuyên gia, tăng cường tiềm năng học tập tự chủ Fara-7B áp dụng phương pháp đào tạo "chưng cất kiến thức", tích hợp 145,000 ví dụ điều hướng thành công được tạo ra bởi hệ thống đa tác nhân Magentic-One, và nén chúng vào một mô hình duy nhất để học tập. Ngoài ra, mô hình nền tảng dựa trên Qwen2.5-VL-7B, sở hữu cửa sổ ngữ cảnh lên đến 128,000 token, với khả năng căn chỉnh hình ảnh-văn bản xuất sắc, quá trình đào tạo chủ yếu tập trung vào việc bắt chước thao tác của chuyên gia con người. Microsoft cho biết, trong tương lai họ sẽ không mù quáng theo đuổi các mô hình lớn hơn, mà tập trung vào việc xây dựng các mô hình "nhỏ gọn, thông minh và an toàn" hơn, đồng thời có kế hoạch đưa vào học tập tăng cường (RL) trong môi trường sandbox tổng hợp để tự đào tạo. Đã mở mã nguồn, có thể tự do thử nghiệm thương mại nhưng chưa phải là sản phẩm chính thức Hiện tại Fara-7B đã được phát hành mã nguồn mở thông qua giấy phép MIT, có thể tải xuống và sử dụng trên nền tảng Hugging Face và Microsoft Foundry, cho phép sử dụng trong các ứng dụng thương mại. Tuy nhiên, Microsoft cũng lưu ý rằng mô hình này chưa đạt tiêu chuẩn triển khai môi trường sản xuất, hiện tại chủ yếu phù hợp cho các nhà phát triển sử dụng để thử nghiệm nguyên mẫu và xác minh chức năng. Đọc thêm: Google ra mắt WeatherNext 2 - mô hình AI dự báo thời tiết thế hệ mới, Pixel, tìm kiếm, Gemini được ưu tiên sử dụng Đọc thêm: Các nhà nghiên cứu phát hiện phương pháp đặt câu hỏi đơn giản giúp AI trở nên sáng tạo hơn, áp dụng được cho mọi mô hình AI như ChatGPT, Gemini Đọc thêm: Anthropic công bố Claude Haiku 4.5 - mô hình AI nhỏ gọn: chỉ bằng 1/3 chi phí, hiệu suất ngang tầm Sonnet 4, thậm chí vượt trội trong lập trình Tham gia cộng đồng Facebook của T客邦

Microsoft ra mắt mô hình AI nhỏ gọn Fara-7B, chạy trực tiếp trên thiết bị và hiệu suất vượt trội hơn GPT-4o

2025/11/28 13:30

Microsoft chính thức công bố mô hình AI mới nhất Fara-7B vào ngày 24 tháng 11, mô hình với 7 tỷ tham số này được định vị là "AI Agent" sử dụng máy tính (Computer Use Agent, CUA), với điểm nổi bật là có thể chạy trực tiếp trên thiết bị cục bộ, không cần dựa vào sức mạnh tính toán đám mây, đồng thời đảm bảo hiệu suất cao và bảo mật dữ liệu.

Tập trung vào bảo mật dữ liệu doanh nghiệp, hỗ trợ thao tác "nhận thức hình ảnh"

Thiết kế cốt lõi của Fara-7B nhằm đáp ứng nhu cầu về quyền riêng tư và tuân thủ trong xử lý thông tin nhạy cảm của khách hàng doanh nghiệp. Do mô hình đủ tinh gọn, có thể chạy trên máy tính cá nhân, không chỉ giảm độ trễ mà còn tránh việc tải dữ liệu lên đám mây, giúp thực hiện tự động hóa cục bộ, ví dụ như quản lý tài khoản nội bộ, xử lý tài liệu mật và các tình huống khác.

Đặc điểm lớn nhất của mô hình này là sử dụng phương thức "nhìn màn hình để thao tác" để tương tác với trang web—thông qua chụp màn hình để đọc bố cục, sau đó dự đoán các thao tác như nhấp chuột, nhập liệu hoặc cuộn. Khác với phương pháp truyền thống dựa vào cấu trúc trình duyệt, Fara-7B hoàn toàn dựa trên dữ liệu cấp pixel để suy luận, do đó ngay cả với các trang web có cấu trúc mã lộn xộn cũng có thể hoạt động bình thường.

Yash Lara, quản lý sản phẩm tại Microsoft Research, cho biết Fara-7B xử lý đầu vào hình ảnh tại thiết bị cục bộ, thực hiện cái gọi là "chủ quyền pixel", cho phép các ngành được quản lý chặt chẽ như y tế, tài chính cũng có thể sử dụng một cách an tâm.

Kiểm nghiệm hiệu suất vượt trội hơn GPT-4o, mô hình nhỏ hiệu quả hơn

Trong tiêu chuẩn kiểm tra WebVoyager, tỷ lệ hoàn thành nhiệm vụ của Fara-7B đạt 73,5%, cao hơn so với 65,1% của GPT-4o và 66,4% của UI-TARS-1.5-7B. Ngoài ra, Fara-7B chỉ cần trung bình 16 bước để hoàn thành nhiệm vụ, rõ ràng tốt hơn so với 41 bước của UI-TARS-1.5-7B, đạt được sự cân bằng tối ưu giữa độ chính xác và hiệu quả.

Fara-7B cũng giới thiệu cơ chế "điểm kiểm tra quan trọng" (critical checkpoints), tự động tạm dừng và yêu cầu xác nhận khi gặp phải các thao tác liên quan đến thông tin cá nhân của người dùng hoặc các thao tác không thể đảo ngược (như gửi thư, chuyển tiền), kết hợp với giao diện tương tác "Magentic-UI", cung cấp hàng rào bảo vệ an toàn cho sự hợp tác giữa người và máy.

Chưng cất kiến thức và đào tạo theo mẫu chuyên gia, tăng cường tiềm năng học tập tự chủ

Fara-7B sử dụng phương pháp đào tạo "chưng cất kiến thức", tích hợp 145.000 ví dụ điều hướng thành công được tạo ra bởi hệ thống đa AI Agent Magentic-One, và nén chúng vào một mô hình duy nhất để học tập. Ngoài ra, mô hình nền tảng dựa trên Qwen2.5-VL-7B, có cửa sổ ngữ cảnh dài nhất là 128.000 token, với khả năng căn chỉnh hình ảnh-văn bản xuất sắc, quá trình đào tạo chủ yếu tập trung vào việc bắt chước các thao tác của chuyên gia con người.

Microsoft cho biết, trong tương lai họ sẽ không mù quáng theo đuổi các mô hình lớn hơn, mà tập trung vào việc tạo ra các mô hình "nhỏ gọn, thông minh và an toàn" hơn, và có kế hoạch đưa vào học tập tăng cường (RL) để tự đào tạo trong môi trường sandbox tổng hợp.

Đã mở mã nguồn, có thể tự do thử nghiệm thương mại nhưng chưa phải là sản phẩm chính thức

Hiện tại, Fara-7B đã được phát hành mã nguồn mở thông qua giấy phép MIT, có thể tải xuống và sử dụng trên nền tảng Hugging Face và Microsoft Foundry, cho phép sử dụng trong các ứng dụng thương mại. Tuy nhiên, Microsoft cũng lưu ý rằng mô hình này chưa đạt tiêu chuẩn triển khai môi trường sản xuất, hiện tại chủ yếu phù hợp cho các nhà phát triển sử dụng để thử nghiệm nguyên mẫu và xác minh chức năng.

  • Đọc thêm: Google ra mắt WeatherNext 2 - mô hình AI dự báo thời tiết thế hệ mới, Pixel, tìm kiếm và Gemini được ưu tiên sử dụng
  • Đọc thêm: Các nhà nghiên cứu phát hiện cách hỏi đơn giản giúp AI trở nên sáng tạo hơn, áp dụng được với mọi mô hình AI như ChatGPT, Gemini
  • Đọc thêm: Anthropic công bố mô hình AI nhỏ Claude Haiku 4.5: chỉ bằng 1/3 chi phí, hiệu suất ngang với Sonnet 4, thậm chí vượt trội trong lập trình
Tuyên bố miễn trừ trách nhiệm: Các bài viết được đăng lại trên trang này được lấy từ các nền tảng công khai và chỉ nhằm mục đích tham khảo. Các bài viết này không nhất thiết phản ánh quan điểm của MEXC. Mọi quyền sở hữu thuộc về tác giả gốc. Nếu bạn cho rằng bất kỳ nội dung nào vi phạm quyền của bên thứ ba, vui lòng liên hệ [email protected] để được gỡ bỏ. MEXC không đảm bảo về tính chính xác, đầy đủ hoặc kịp thời của các nội dung và không chịu trách nhiệm cho các hành động được thực hiện dựa trên thông tin cung cấp. Nội dung này không cấu thành lời khuyên tài chính, pháp lý hoặc chuyên môn khác, và cũng không được xem là khuyến nghị hoặc xác nhận từ MEXC.