Danylo Mikula của Medidata Solutions đã dẫn dắt sự chuyển đổi từ quy trình thủ công sang quy trình làm việc khai báo – giảm thời gian cung cấp cụm xuống 97%
Đối với nhiều nhóm kỹ thuật doanh nghiệp, Kubernetes đã lâu vượt qua giai đoạn đổi mới và trở thành hạ tầng quan trọng hàng ngày. Tuy nhiên, việc duy trì hạ tầng đó một cách hiệu quả – đặc biệt trên nhiều cụm và môi trường – vẫn là một thách thức làm chậm việc phát hành tính năng và tăng rủi ro vận hành.

Tại Medidata Solutions, nhà cung cấp hàng đầu các giải pháp SaaS và phân tích dữ liệu hỗ trợ nghiên cứu lâm sàng, thách thức này đặc biệt nghiêm trọng. Quản lý hạ tầng lai trên môi trường tại chỗ và Điện toán đám mây – bao gồm khoảng một chục cụm Kubernetes và hàng nghìn máy ảo – việc cung cấp một cụm sẵn sàng cho sản xuất là một quy trình dài có thể mất hàng tuần nỗ lực phối hợp, liên quan đến cấu hình thủ công trải rộng trên nhiều nhóm. Các cập nhật cho ứng dụng hạ tầng thường bị hoãn lại vì lịch sử cấu hình không được tập trung, tạo ra sự chậm trễ và đôi khi là lỗ hổng bảo mật.
Điều đó đã thay đổi khi Danylo Mikula, một Kiến trúc sư DevOps & Hạ tầng với hơn một thập kỷ kinh nghiệm trong các ngành được quản lý, tham gia nhóm kỹ thuật nền tảng vào cuối năm 2023 và bắt đầu đại tu cách thức quản lý hạ tầng. Nhiệm vụ, như Danylo mô tả, đơn giản một cách lừa dối.
"Mục tiêu không phải là giới thiệu các công cụ mới vì mục đích hiện đại hóa. Mà là làm cho hạ tầng hiện có dễ vận hành, bảo trì và mở rộng hơn – mà không tăng nhân viên hoặc độ phức tạp."
– Danylo Mikula, Kiến trúc sư DevOps & Hạ tầng, Medidata Solutions
Từ Các Bước Thủ Công Đến Quy Trình Làm Việc Khai Báo
Cốt lõi của sự chuyển đổi tập trung vào việc hợp nhất các quy trình phân mảnh thành một mô hình dựa trên GitOps. Thay vì các kỹ sư áp dụng cấu hình thủ công cho từng cụm, việc triển khai được chuyển vào các kho được kiểm soát phiên bản, với Argo CD xử lý đồng bộ hóa.
Các điểm nghẽn mà anh gặp phải tồn tại ở mọi giai đoạn. Mạng container yêu cầu phối hợp giữa các nhóm kỹ thuật nền tảng và mạng, với cấu hình phân tán trên các máy trạm của từng kỹ sư. Các ứng dụng hạ tầng được triển khai thủ công, với các tệp giá trị nằm trên máy cục bộ. Quản lý bí mật tuân theo các phương pháp thủ công truyền thống, và các quy trình triển khai đã phát triển một cách tự nhiên theo thời gian mà không có sự phối hợp tập trung. Bằng cách hợp nhất từng giai đoạn vào các biểu đồ Helm được kiểm soát phiên bản với các ghi đè cụ thể cho môi trường, Danylo đã giảm thời gian mỗi giai đoạn từ nhiều ngày xuống còn vài phút.
Kiến trúc mà Danylo xây dựng tuân theo triết lý "định nghĩa một lần, triển khai mọi nơi". Một kho trung tâm lưu trữ các định nghĩa dịch vụ được chia sẻ tự động tạo ra các triển khai cụ thể cho cụm, trong khi mỗi môi trường chỉ duy trì các ghi đè duy nhất của nó. "Thay vì sao chép các tệp cấu hình trên một chục cụm," Danylo giải thích, "chúng tôi đã tạo ra một hệ thống trong đó việc thêm một dịch vụ mới có nghĩa là viết một định nghĩa và để tự động hóa xử lý phần còn lại." Phương pháp này bao gồm hàng chục thành phần hạ tầng – từ kho dữ liệu và hệ thống nhắn tin đến các công cụ bảo mật và giám sát – đồng thời giảm đáng kể rủi ro về sự trôi dạt cấu hình.
Phân phối bí mật tuân theo nguyên tắc tương tự: thay vì tiêm thủ công cho mỗi cụm, tích hợp Vault thông qua Vault Secrets Operator tự động hóa đồng bộ hóa, đảm bảo rằng các thay đổi chảy qua một quy trình được kiểm soát với các dấu vết kiểm toán thích hợp.
Kết quả là một sự thay đổi cơ bản trong cách quản lý hạ tầng. Thời gian cung cấp giảm xuống còn khoảng 30 phút – một cải thiện hiệu quả 97,6%. Các cập nhật trở nên nhất quán và có thể lặp lại, và việc giới thiệu các kỹ sư mới yêu cầu ít kiến thức bộ lạc hơn.
"Chúng tôi có nhiều nhóm đóng góp vào cùng một môi trường, và tính nhất quán luôn là một mối quan tâm. Công việc đã giúp chúng tôi chuyển sang một quy trình có thể dự đoán được với một nguồn chân lý được chia sẻ. Những cải thiện không chỉ là kỹ thuật – chúng làm cho sự hợp tác dễ dàng hơn."
– Monik Gandhi, Giám đốc, Kỹ thuật Điện toán đám mây
Yếu Tố Con Người Trong Thay Đổi Kỹ Thuật
Các đồng nghiệp chỉ ra rằng thành công của sự thay đổi không hoàn toàn là kỹ thuật. GitOps không quen thuộc với mọi người ngay từ đầu, và một phần của nỗ lực liên quan đến việc làm cho phương pháp này dễ hiểu và có thể sử dụng được cho các kỹ sư đã dành nhiều năm trong các quy trình làm việc mệnh lệnh.
"Kiến trúc rất mạnh, nhưng điều nổi bật là cách áp dụng được kích hoạt. Dành thời gian để hướng dẫn các kỹ sư thông qua mô hình có nghĩa là bất kỳ ai trong nhóm giờ đây có thể triển khai hoặc sửa đổi hạ tầng mà không cần nhiều năm bối cảnh tích lũy. Mọi người hiểu không chỉ 'làm thế nào,' mà còn 'tại sao.'"
– Labhesh Potdar, Quản lý, Kỹ thuật Điện toán đám mây
Kết quả là, các cập nhật hạ tầng – trước đây được coi là rủi ro – đã trở thành thường lệ. Các nhóm có được sự tự tin khi chạy các nâng cấp theo lịch trình vì lịch sử triển khai có thể nhìn thấy và tái tạo được.
Bảo mật Như Một Tác Động Phụ
Các cải thiện bảo mật cũng quan trọng không kém. Trước đây, việc duy trì lịch trình vá lỗi nhất quán là một thách thức vì các cấu hình triển khai được phân tán trên toàn tổ chức thay vì được tập trung. Các chuyển đổi nhóm tự nhiên làm cho tính liên tục cấu hình trở nên khó khăn hơn.
Với tất cả các cấu hình giờ đây được kiểm soát phiên bản, nhóm cuối cùng có thể duy trì lịch trình cập nhật nhất quán và theo dõi chính xác những gì đang chạy ở đâu. Tích hợp với HashiCorp Vault đảm bảo các bí mật được quản lý nhất quán trên toàn bộ hạ tầng với việc xoay vòng và kiểm soát truy cập thích hợp – quan trọng đối với một công ty SaaS chăm sóc sức khỏe hoạt động trong các môi trường được quản lý.
Bài Học Chính Cho Các Nhà Lãnh Đạo Kỹ Thuật
Các mẫu kỹ thuật được sử dụng trong quá trình chuyển đổi không mới mẻ gì – Helm, Argo CD và Vault là những công cụ nổi tiếng. Theo Danylo, tác động đến từ cách chúng được cấu trúc và giới thiệu: từng bước, với sự chú ý đến trải nghiệm của nhà phát triển và thói quen của tổ chức.
Đối với các nhà lãnh đạo kỹ thuật khác đang xem xét một sự thay đổi tương tự, Danylo nhấn mạnh ba bài học:
Bắt đầu với thiết kế kho lưu trữ. Cấu trúc thư mục và quy ước đặt tên ảnh hưởng đến khả năng bảo trì dài hạn. Làm đúng điều này sớm sẽ tiết kiệm đáng kể việc tái cấu trúc sau này.
Chỉ tự động hóa những gì các nhóm có thể hiểu và hỗ trợ. Việc áp dụng quan trọng hơn sự tinh vi. Một hệ thống đơn giản hơn mà các kỹ sư thực sự sử dụng có giá trị hơn một hệ thống tinh tế mà họ tránh.
Để dành chỗ cho chuyển đổi dần dần. Di chuyển mọi thứ cùng một lúc hiếm khi bền vững. Việc áp dụng từng bước cho phép các nhóm xây dựng sự tự tin và xác định các vấn đề trước khi chúng trở nên phức tạp.
Nhìn Về Phía Trước
Công việc đã định vị nhóm nền tảng của Medidata để mở rộng hạ tầng mà không cần tăng nỗ lực thủ công tương ứng. Khi số lượng cụm và ứng dụng tăng lên, mô hình khai báo trở nên có giá trị hơn – không chỉ về tốc độ, mà còn về khả năng kiểm toán, giới thiệu và tính nhất quán dài hạn.
Trọng tâm hiện tại, Danylo nói, là mở rộng cùng một phương pháp khai báo cho khả năng quan sát – xây dựng các SLI có thể đo lường và cảnh báo tự động làm cho độ tin cậy trở thành một thực hành khách quan thay vì một vấn đề trực giác.
"GitOps không giải quyết mọi vấn đề – nhưng nó làm cho các phần thường lệ của hạ tầng ít mong manh hơn và có thể dự đoán được hơn. Trong các tổ chức kỹ thuật lớn, chỉ riêng điều đó có thể mở khóa hiệu quả có ý nghĩa."
– Danylo Mikula
Danylo Mikula là Kiến trúc sư DevOps & Hạ tầng tại Medidata Solutions với hơn mười năm kinh nghiệm cung cấp các giải pháp kỹ thuật Điện toán đám mây và nền tảng trong các ngành được quản lý. Công việc của anh tập trung vào việc chuyển đổi các nguyên tắc DevOps thành các thực hành độ tin cậy có thể đo lường, có thể lặp lại, nhấn mạnh các quy trình làm việc khai báo, hạ tầng dưới dạng mã và quản trị dựa trên khả năng quan sát. Anh đã đóng góp nghiên cứu về các mô hình áp dụng GitOps tại các hội nghị khoa học quốc tế. Thêm về các dự án và công việc kỹ thuật của anh có thể được tìm thấy trên trang web cá nhân của anh, thể hiện kinh nghiệm thực tế và phương pháp phát triển sản phẩm của anh.



