Trí tuệ nhân tạo đang chuyển từ Điện toán đám mây sang điện thoại của chúng ta. Trong khi các trợ lý AI dựa trên Điện toán đám mây như ChatGPT hoặc Gemini thống trị các tiêu đề, một sự chuyển đổi yên ắng nhưng mang tính chất biến đổi đang diễn ra: trí thông minh trên thiết bị—các mô hình AI chạy hoàn toàn trên thiết bị của người dùng, mà không gửi dữ liệu đến máy chủ từ xa. Đây không chỉ là một sự tò mò về kỹ thuật. Đối với các nhà phát triển App, nó đại diện cho một cơ hội chiến lược để xây dựng các ứng dụng riêng tư hơn, phải chăng hơn và có khả năng hoạt động hoàn toàn ngoại tuyến. Và trong khi tầm nhìn về một AI Agent trên thiết bị hoàn toàn tự động vẫn đang phát triển, nền tảng đã được đặt ra—thông qua phần cứng tốt hơn, phần mềm được Tối ưu hóa và kiến trúc mô hình thông minh hơn.
Trí thông minh trên thiết bị đề cập đến các mô hình AI thực thi cục bộ trên điện thoại thông minh hoặc thiết bị biên khác, mà không dựa vào cơ sở hạ tầng Điện toán đám mây.
Quan trọng là, khi các chuyên gia thảo luận về tương lai của AI trên thiết bị, họ đề cập đến một mô hình độc lập chạy hoàn toàn trên phần cứng của người dùng.
Có bốn lực lượng thúc đẩy sự quan tâm đến AI trên thiết bị:
Quyền riêng tư và quy định. Ở châu Âu và các khu vực khác có luật dữ liệu nghiêm ngặt (như GDPR), việc truyền dữ liệu cá nhân đến dịch vụ AI của Bên thứ ba, ngay cả khi nhà cung cấp tuyên bố rằng nó sẽ không được lưu trữ, có thể khiến các nhà phát triển phải đối mặt với rủi ro pháp lý. Ngay cả khi có Thỏa thuận Xử lý Dữ liệu, rất khó để kiểm toán đầy đủ và đảm bảo cách các dịch vụ của Bên thứ ba xử lý dữ liệu nhạy cảm trong thực tế.
Chi phí và kiếm tiền. AI dựa trên Điện toán đám mây yêu cầu thanh toán cho mỗi token—chi phí thường được chuyển cho người dùng thông qua đăng ký. Nhưng ở các thị trường có mức thu nhập thấp hơn, mức giá như vậy có thể quá cao. Các mô hình trên thiết bị loại bỏ phí token, cho phép các App miễn phí hoặc chi phí cực thấp được kiếm tiền thông qua quảng cáo, mua một lần hoặc đăng ký tối thiểu—giảm đáng kể chi phí biên của việc phục vụ mỗi người dùng.
Khả năng ngoại tuyến. Không phải người dùng nào cũng có internet đáng tin cậy. Cho dù ở các khu vực nông thôn, bãi đậu xe ngầm, quán cà phê dưới tầng hầm, hay các con đường mòn xa xôi, mọi người cần AI hoạt động mà không cần kết nối. Trí thông minh trên thiết bị cho phép trải nghiệm thực sự ngoại tuyến như dịch menu hoặc nhận dạng cây từ ảnh.
Độ trễ và khả năng đáp ứng. AI dựa trên Điện toán đám mây gây ra Độ trễ khứ hồi mạng—thường là 100–500ms ngay cả trên các kết nối tốt. Đối với các trường hợp sử dụng theo thời gian thực như dịch trực tiếp, lệnh thoại hoặc lớp phủ AR, Độ trễ này là không thể chấp nhận được. Suy luận trên thiết bị loại bỏ hoàn toàn Độ trễ mạng, cho phép phản hồi thực sự tức thời.
Mặc dù có tiến bộ nhanh chóng, AI trên thiết bị về cơ bản là một trò chơi đánh đổi. Kích thước mô hình, chất lượng phản hồi, tiêu thụ pin, sử dụng bộ nhớ và hiệu suất thiết bị được liên kết chặt chẽ—và cải thiện một cái gần như luôn làm giảm cái khác.
LLM độc lập vẫn còn thách thức. Các mô hình mà các nhà phát triển có thể đóng gói vào App của họ—như Gemma 3n, Deepseek R1 1.5B hoặc Phi-4 Mini—nặng 1–3 GB ngay cả sau khi lượng tử hóa mạnh mẽ. Đó là quá lớn đối với các gói App store, yêu cầu tải xuống riêng sau khi cài đặt. Và hiệu suất thay đổi rất nhiều: trên điện thoại cao cấp có NPU, suy luận chạy mượt mà; trên các thiết bị tầm trung, cùng một mô hình có thể bị trễ, quá nóng hoặc bị giết bởi quản lý bộ nhớ tích cực.
AI tích hợp nền tảng trưởng thành hơn. Gemini Nano của Google (có sẵn trên Pixel và các thiết bị Samsung được chọn thông qua AICore API) và Apple Intelligence (iOS 18+) cung cấp khả năng trên thiết bị mà không yêu cầu các nhà phát triển vận chuyển mô hình riêng của họ. Chúng xử lý tóm tắt, trả lời thông minh và viết lại văn bản một cách hiệu quả—nhưng khóa các nhà phát triển vào các nền tảng cụ thể và các cấp thiết bị.
Các mô hình ML hẹp hoạt động tốt nhất ngày nay. Các tác vụ như nhận dạng giọng nói theo thời gian thực, cải thiện ảnh, phát hiện đối tượng và phụ đề trực tiếp đáng tin cậy trên hầu hết các thiết bị. Đây không phải là LLM đa năng—chúng là các mô hình chuyên biệt, được Tối ưu hóa nhiều (thường dưới 100 MB) được xây dựng cho một công việc. Các framework Edge AI làm cho chúng có thể truy cập được cho các nhà phát triển App trên các nền tảng.
Thỏa hiệp kết hợp. Cả Google và Apple đều triển khai xử lý phân cấp: Gemini Nano và Apple Intelligence xử lý tóm tắt, trả lời thông minh và viết lại văn bản cục bộ, trong khi lý luận phức tạp, cuộc hội thoại nhiều lượt và các truy vấn chuyên sâu về kiến thức định tuyến đến cơ sở hạ tầng Điện toán đám mây (máy chủ Gemini của Google, Private Cloud Compute của Apple). Cách tiếp cận thực dụng này thu hẹp khoảng cách—nhưng nhấn mạnh rằng AI đa năng hoàn toàn trên thiết bị vẫn còn là khát vọng.
Làm cho AI trên thiết bị khả thi đòi hỏi tiến bộ trên ba mặt trận:
Công việc đang tiếp tục trên cả ba lĩnh vực—và tiến bộ đang tăng tốc.
Nhà phát triển AI trên thiết bị lý tưởng nằm ở giao điểm của kỹ thuật di động và học máy. Hầu hết các chuyên gia AI tập trung vào cơ sở hạ tầng Điện toán đám mây và cụm GPU/TPU—môi trường có bộ nhớ, nguồn và tính toán dồi dào. Họ hiếm khi gặp phải các ràng buộc cụ thể của thiết bị di động: giới hạn bộ nhớ nghiêm ngặt, chấm dứt App nền tích cực, điều chỉnh nhiệt và ngân sách pin chặt chẽ. Điều này đã làm nảy sinh một chuyên môn mới: Kỹ thuật Edge AI.
Các nhà phát triển trong lĩnh vực này phải:
Quan trọng là, "hoàn toàn trên thiết bị" đề cập đến nơi suy luận AI chạy—không phải liệu App có thể truy cập internet hay không. Một mô hình cục bộ vẫn có thể gọi API bên ngoài làm công cụ (như tìm kiếm web hoặc dịch vụ thời tiết), nhưng lý luận AI tự nó xảy ra hoàn toàn trên thiết bị. Với suy luận trên thiết bị và gọi công cụ, bạn bảo vệ quyền riêng tư (không có dữ liệu người dùng được gửi để xử lý) trong khi vẫn mở rộng chức năng.
Mặc dù có tiến bộ nhanh chóng, AI trên thiết bị sẽ không thay thế AI Điện toán đám mây cho các tác vụ phức tạp như lý luận nhiều bước, tạo mã hoặc các cuộc hội thoại mở dài. Người dùng có thể đánh giá quá cao những gì các mô hình cục bộ có thể làm—dẫn đến thất vọng nếu hiệu suất chậm. Đừng mong đợi chất lượng cấp ChatGPT trên điện thoại giá rẻ.
Nhưng đối với các trường hợp sử dụng có phạm vi rõ ràng, giá trị cao, tương lai rất tươi sáng:
Khi các mô hình thu nhỏ lại, NPU trở thành tiêu chuẩn và các framework trưởng thành, AI trên thiết bị sẽ chuyển từ một điều mới lạ của người áp dụng sớm sang thực hành tiêu chuẩn.
Trí thông minh trên thiết bị không chỉ là về tốc độ hoặc sự tiện lợi—đó là một sự chuyển đổi mô hình trong cách chúng ta nghĩ về AI: từ các dịch vụ dựa trên đăng ký tập trung đến các trợ lý cá nhân, riêng tư và luôn sẵn sàng sống trong túi của chúng ta.
Đối với các nhà phát triển App, điều này mở ra một con đường để xây dựng các ứng dụng đạo đức hơn, toàn diện hơn và kiên cường hơn—không có sự phụ thuộc vào Điện toán đám mây hoặc các yêu cầu tuân thủ dữ liệu phức tạp. Công nghệ vẫn chưa hoàn hảo, nhưng hướng đi rất rõ ràng. Chúng ta đã gần hơn hầu hết mọi người nhận ra. Quỹ đạo rất rõ ràng—và tốc độ đang tăng tốc.


Một năm sau khi ra mắt Open Mainnet, Pi Network đã bước vào cái mà nhiều nhà quan sát mô tả là một chương mới quyết định. Rat