Bài viết này, tôi xin gửi đến những người đồng nghiệp, những anh em, đồng chí của tôi - những người đã và đang hy sinh lợi ích cá nhân để phát triển một Viettel hùng mạnh, một Viettel với những người con đất Việt xứng tầm 5 châu
17h, khi mọi người ở các văn phòng đang hối hả hoàn thành công việc trong ngày để chuẩn bị về với gia đình, ở một bến xe phía Tây thành phố, có những con người cũng đang hối hả đi đến điểm đỗ xe ca để di chuyển đến nơi làm việc. Chỉ nửa tiếng nữa, họ - những kỹ sư FO (Front Office) sẽ bắt đầu cho một đêm trắng để đảm bảo an toàn cho mạng lưới Viettel và 9 thị trường nước ngoài. Khi chiếc xe lăn bánh, một tiếng điện thoại của ai đó reng lên.
“Alo, bố đây, bố đi làm con nhé, con ở nhà với mẹ ngoan nhé, sáng mai con đi học ngoan, chiều mai bố đón nhé”
“Uh, mai bố đón con sớm nhất lớp, con hát tặng bố một bài đi nào”
“Mở loa ngoài đi bố trẻ con ơi” – tiếng nói của một người trên xe.
Và tiếng hát ngọng ngịu của cháu bé vang lên trong điện thoại: “Vai chú mang súng mũ cài ngôi sao đẹp xinh…Canh nơi biển cả giữ tiền tiêu nơi đảo xa….”
Chúng tôi không phải bộ đội, HLC không phải đảo xa mà sao đi làm đêm ở HLC thấy nó xa đến vậy. Một chút chạnh lòng đến rồi lại đi ngay, đã 2 năm từ ngày rời “phố” về “núi”, dần dần những câu chuyện ở “phố” đã được thay đổi thành chuyện ở “núi”, mọi thứ dường như đã quen thuộc hơn đến mức những kỷ niệm ở “phố” chỉ còn câu chuyện mua vui của những người cũ cho những người mới.
Lúc đầu, trên xe còn ồn ào, còn tiếng cười tiếng nói, hỏi han nhau tối nay có gì đặc biệt, có kế hoạch đêm nào to to không, ai trực chỉ huy, rồi “cá độ” xem nhà bếp hôm nay cho ăn gì, 10’ sau khi xe chạy thì mọi thứ trở lên im ắng, mỗi người một việc riêng, có người thì ngả ghế ra tranh thủ nhắm mắt chuẩn bị cho một đêm dài, có người nhún nhẩy, lắc lư theo điệu nhạc từ chiếc headphone, người thì chống cằm nhìn ngắm từng chiếc xe phóng vù qua,…Làm gì thì làm, trong chúng tôi, ai cũng cố gắng chuẩn bị cho mình tâm trạng tốt nhất để chuẩn bị cho một đêm thật dài và chưa biết có những gì sẽ diễn ra. 17h45’, chúng tôi xuống xe và đi ngược chiều với những đồng nghiệp ở đơn vị khác, có lẽ giờ những người làm ở tòa nhà HLC chắc không còn thắc mắc chúng tôi là ai và tại sao lại đi làm vào cái giờ mà mọi người đều muốn về nhà.
Thời gian giao giữa hai ca, chúng tôi vẫn gọi là thời gian tiềm ẩn rủi ro, từng cảnh báo trên hệ thống, từng ticket, từng WO, từng case lỗi được chúng tôi cố gắng bàn giao từ ca trước cho ca sau chi tiết nhất để mạch công việc không bị gián đoạn.
18h20’, khi chiếc xe ca đưa chúng tôi đến lại trở những đồng nghiệp của chúng tôi về nội thành, nếu là ngày thứ thì chúng tôi bắt đầu chia nhau đi ăn tối tại nhà ăn tập thể. Cơm suất tại HLC thì chắc không cần mô tả, nhờ các cấp lãnh đạo trong Tập đoàn quan tâm mà giờ đã khá khẩm hơn nhưng để được như cơm nhà thì còn phải thêm nhiều “gia vị vui vẻ”. Bắt đầu giờ ăn, như thường lệ, lại một đồng chí xướng lên bài ca…chán cơm. Và rồi anh em vừa ăn lại vừa góp mỗi người một câu để bữa cơm thêm nhiều “gia vị” hơn:
-
Có cơm tối mà ăn là tốt rồi, hồi đầu mới xuống đây, cơm còn không có mà ăn, ăn vạ ăn vật, ăn linh ăn tinh.
-
Ế vợ không có người nấu cơm cho mang đi ăn tối thì cố mà ăn đi.
-
Chủ nhật úp mì tôm thì chả thấy kêu gì, hôm nay có cơm là tốt rồi.
-
Mình còn có cơm suất mà ăn, anh em đội kỹ thuật giờ này khéo còn chưa được ăn đâu.
-
Giờ mà ở GVM thì sướng biết mấy, nhấc điện thoại lên là cơm mang tận nơi, cơm Hải Sư, cơm sườn bì, bánh mỳ kẹp thịt,…
Mỗi người một câu, bữa ăn cũng qua đi rất nhanh. Ai cũng cố lấp đầy cái dạ dày trống của mình để chuẩn bị cho một đêm thật dài.
Gần đến 19h, mọi người dần ổn định đội hình,mỗi người một việc, người thì rà soát kế hoạch đêm xem có những gì có thể ảnh hưởng đến mảng của mình, người nào có tác động đêm thì tranh thủ xem kỹ nội dung công việc, ai giám sát thì tập trung giám sát, ai xử lý sự cố thì tập trung rà soát ticket. Đồng chí “Shift leader” thì đảo qua đảo lại các ban nhắc nhở việc giám sát và tiếp nhận xử lý ticket.
Vào các khung giờ ngoài giờ tác động đêm, các cảnh báo sinh ra phần lớn là do hệ thống có vấn đề, sau thời gian tiền phân tích thì sẽ được xác nhận và được tạo ticket để tiến hành xử lý.
Cảnh báo sinh ra trên hệ thống rất nhiều, nếu là người “ngoại đạo” chắc hẳn sẽ choáng ngợp với khối lượng cảnh báo và thắc mắc làm thế nào để giám sát được, làm thế nào để không lọt cảnh báo.
Trước đây, chúng tôi sử dụng NocPro v3 để giám sát hệ thống, thời điểm đó chúng tôi chỉ biết nhìn cảnh báo bằng mắt thường, các loại cảnh báo nào cần giám sát thì mới đưa lên giám sát, phát sinh loại cảnh báo mới là lọt cảnh báo. Hệ thống mạng lưới thì thay đổi từng ngày nhưng những thay đổi ở bộ máy giám sát không đáp ứng kịp với xu thế, sinh ra nhiều bài học “đau thương” cho các kỹ sư giám sát. Vì vậy chúng tôi “được” các đơn vị khác đánh giá là đang làm “việc nhẹ, lương cao”, “lấy sức trâu để bù cái đầu”,…
Không chấp nhận việc đó, chúng tôi đã có những bước chuyển mình để biến những kỹ sư từ “con mắt giám sát” trở thành “cánh tay nối dài” của BO và đang dần phấn đấu trở thành “bộ máy tư duy” của lãnh đạo.
Phần mềm NOCPROv4 được xây dựng bằng chính những bài học rút kinh nghiệm của thế hệ các kỹ sư giám sát thời trước là một trong số những công cụ thông minh giúp chúng tôi làm tốt công việc giám sát hệ thống.
22h, càng gần đến giờ tác động đêm, không khí dường như càng “nóng” lên, từng chiếc áo vest đen bóng bẩy được cởi dần ra, màu xanh của những chiếc áo sơ mi đồng phục dần hiện ra ở các vị trí như ước mong một đêm “xanh” cho mạng lưới.
23h, các máy điện thoại hotline giám sát đổ chuông liên hồi, những thông báo bắt đầu tác động vào hệ thống nào được lan truyền rất nhanh quá các ban…Mọi người ai cũng tập trung hơn đặc biệt là nhóm các đồng chí chịu trách nhiệm giám sát. Màn hình lớn được kiểm tra lại một lượt nữa để đảm bảo đã đăng nhập đầy đủ vào hệ thống ONE.PM để hiển thị chính xác trạng thái các ticket của từng ban, trạng thái các cảnh báo mới phát sinh.
0h, Tiếng tin nhắn điện thoại “Ting ting” từ đầu số 175 liên tục vang lên như báo hiệu các tác động trong đêm đã bắt đầu gây ảnh hưởng đến một hệ thống nào đó. Màn hình giám sát NOCPRO4 bắt đầu xuất hiện các cảnh báo màu xanh, từng cảnh báo nhanh chóng được các kỹ sư FO xác nhận nguyên nhân. Do tác động hay do sự cố thực tế trên hệ thống. Nếu là do tác động, theo quy trình thì sẽ làm như phòng Cải tiến Quy trình đã truyền thông
Nếu không có tác động đêm nào gây ra lỗi trên hệ thống, một ticket trouble sẽ được tạo từ cảnh báo và lực lượng FO chúng tôi cũng sẽ là người trực tiếp tiền xử lý các ticket này trong giai đoạn.
Thời gian để chúng tôi có thể xác nhận ticket hay phân loại nó là do tác động hay do sự cố là 10’ cho cảnh báo đỏ (Crictial), 30’ cho cảnh báo báo cam và vàng (Major, Minor). Rủi ro trong công tác giám sát nằm ở đây. Nếu chúng tôi không phân biệt được đâu là cảnh báo do tác động, đâu là cảnh báo thật, điều gì sẽ xẩy ra ?
Trường hợp 1: cảnh báo đó có thể sẽ bị chuyển sang chế độ “theo dõi” đến tận khi nhân sự tác động báo hoàn thành tác động và nhân sự trực giám sát sẽ trở thành “tội đồ” nếu cảnh báo này không được xử lý xong trước 4h30’ sáng. Mà nếu có xong trước 4h30’ sáng thì nhân sự trực giám sát cũng đã nhận được một án “lọt” cảnh báo.
Trường hợp 2: Một trouble ticket được tạo ra chúng tôi sẽ có thêm việc để làm ngay lập tức vì thời gian để tiền phân tích và tiếp nhận có xử lý ticket hay không xử lý là rất ngắn.
Vậy tại sao nhân sự giám sát không tạo luôn các ticket cho tất cả cảnh báo để tránh rủi ro cho mình ? Một thời gian trước đây, các nhân sự giám sát đã làm như vậy nhưng giờ đây nhân sự xử lý sự cố xác định cảnh báo sinh ra do tác động đêm thì nhân sự giám sát sẽ nhận một ticket vào KPI “từ chối” ticket.
Trong một thời điểm, có hàng trăm cảnh báo cùng đẩy ra, vậy làm như thế nào để chúng tôi có thể xác nhận rất nhanh cảnh báo, không bỏ lọt, hạn chế tối đa tạo sai ticket đây là một bí mật mà chỉ có những người đã từng ngồi vào vị trí giám sát mới biết. Nếu nói chúng tôi có giác quan đặc biệt, vô cùng nhạy cảm với mỗi cảnh báo thì cũng đúng. Để có được giác quan đó, chúng tôi đã phải trải qua những giai đoạn đào tạo vô cùng khắc nghiệt: Về chuyên môn – nghiệp vụ, về kỹ năng tổng hợp thông tin, phân tích tình huống, ghi nhớ sự kiện và quan trọng nhất là khả năng chịu đựng áp lục công việc dồn dập trong thời gian liên tục.
Thời gian đêm dần dần chuyển về sáng, từng cảnh báo trên hệ thống NOCPRO được tạo thành ticket. Với mỗi ticket, nhân sự FO sẽ kiểm tra và đánh giá mức độ nghiêm trọng, tìm kiếm trong “ngân hàng sự cố” (KEDB) để đưa ra phương án xử lý. Tùy loại sự cố, có loại sẽ được xử lý ngay, có loại thì sẽ tạo CR vào xử lý trong ngưỡng thời gian cho phép. Nếu sự cố có nguy cơ cao hoặc đã ảnh hưởng đến dịch vụ khách hàng mà FO chưa có phương án xử lý, tìm trong KEDB không có, đội ngũ BO sẽ được triệu tập để phối hợp cùng xử lý. Lúc này, tất cả các đầu mối liên quan đến sự cố sẽ được IM (z78) triệu tập vào phòng “chích điện” (tên gọi vui mà chúng tôi đặt cho phòng tính huống vì cứ bước chân vào phòng này là lại có áp lực vô hình đè nặng lên vai), lực lượng FO lúc này sẽ đóng vay trò là cánh tay nối dài của BO để thực hiện các lệnh lên hệ thống, đưa ra các thông tin ở các bước tiền phân tích, các hành động đã xử lý và đôi lúc là đề xuất phương án xử lý để BO xem xét thực hiện ECAB.
Ở mỗi hệ thống lại chia ra thành nhiều mảng, nhiều nhà cung cấp, mỗi mảng, mỗi nhà cung cấp có một người được phân công là BO, làm thế nào để FO có thể đáp ứng được tất cả các yêu cầu của BO ở các mảng khác nhau khi mà mỗi ca trực mỗi hệ thống cũng chỉ có vài người ? Trước đây, khi nói về kỹ sư giám sát chắc hẳn phần lớn mọi người đều nghĩ đến những người chỉ “nhìn và nhìn”, “công việc dễ dàng, ai cũng làm được” và mỗi khi có sự cố sẽ là “có mỗi việc nhìn cũng không xong”. Vì thế chúng tôi không được đánh giá cao trong mắt lãnh đạo. Khi mà lần lượt các nhân sự BO, QLVĐ, TĐHT lần lượt được tăng thêm hệ số rủi ro trong thu nhập, chúng tôi những người hàng ngày vẫn phải chịu những áp lực vô hình của công việc giám sát chỉ biết cần phải cố gắng nhiều hơn để phá vỡ những nhận thức không mấy thiện cảm của mọi người với “nghề” giám sát.
Tháng x/201x, sau khi sắp nhập FO giám sát và BO xử lý lớp 1 thành một nhóm FO duy nhất, chúng tôi được tham gia kế hoạch đào tạo nội bộ với những lộ trình rõ ràng theo từng tuần, từng tháng. Sau thời gian này, chúng tôi không chỉ còn làm những kỹ sư giám sát thông thường nữa. Chúng tôi đã vận dụng những kiến thức thu được để tối ưu bộ máy giám sát bằng chương trình “Tối ưu cảnh báo NOCPRO4”, đã thực hiện xử lý sự cố theo đúng quy trình EM, IM, CM,…
Để đáp ứng được nhu cầu xử lý ticket sự cố, mỗi người FO chúng tôi chấp nhận đi ngược lại với BO, BO chuyên sâu từng mảng còn chúng tôi học dàn trải tất cả các mảng trong một hệ thống, mỗi mảng chúng tôi đều cố gắng nắm rõ toàn bộ những kiến thức cơ bản, những case lỗi có trong KEDB. Và sau đó, mỗi người trong chúng tôi lại chọn cho mình một mảng để học chuyên sâu để tự mình trở thành “key member” trong FO.
4h sáng, với nhịp sinh học của con người, khung giờ này là khung giờ ngủ say nhất nhưng với chúng tôi, khung giờ này lại là buộc phải trở lên tỉnh táo nhất vì khung giờ tác động đêm đang khép lại và những cảnh báo mà đầu giờ tác động được đưa vào để theo dõi sẽ được lật lại để kiểm tra. Các node mạng có kế hoạch tác động trong đêm lại càng được giám sát chặt chẽ, các KPI tự động trên node mạng được kiểm tra và theo dõi, nếu có vấn đề phát sinh có thể gây ảnh hưởng dịch vụ cần phải có hành động ngay.
Một đêm yên lành với mạng lưới có thể đã trôi qua, cho đến 8h sáng, tùy theo từng hệ thống, chúng tôi sẽ có những báo cáo riêng để bàn giao cho ca sau.
Đêm nào cũng vậy, niềm vui của những người trực ca đêm như chúng tôi là được nhìn thấy đồng nghiệp của mình lên nhận ca vào buổi sáng vì chỉ ít phút nữa thôi, chúng tôi sẽ lần lượt xuống sảnh tòa nhà, hít thở không khí trong lành vào buổi sáng ở vùng “núi”, được chơi một trò chơi mà chúng tôi vẫn gọi là “hãy chọn chỗ đúng”. Muốn biết trò chơi này thú vị thế nào, mời các bạn đến làm việc với chúng tôi một đêm và trở về trên xe ca vào 8h20. 8h20, xe ca lăn bánh, đưa chúng tôi – những người may mắn không phải ở lại sau mỗi đêm– về bãi đỗ xe Mỹ Đình. Lên xe, không đến 5’ là gần như tất cả đều cố gắng dỗ mình vào giấc ngủ để 30’ nữa thôi sẽ có trạng thái tỉnh táo để lên xe máy về nhà.
Đang lơ mơ ngủ thì có điện thoại hỏi về một vài cảnh báo của đêm qua, sau khi trả lời xong, quay sang bên cạnh thấy cậu em ngồi cùng dãy ghế đang ngủ mơ và mỉm cười,…Một lúc sau, khi xuống xe, tôi hỏi cậu em:
- Em ngủ mơ gì mà cười tươi thế
- Em mơ anh em mình được tăng lương mỗi người 0.x anh ạ. 0.y vì anh em mình troubleshooting sự cố tốt như BO, xử lý sự cố nhanh; 0.z nữa là vì anh em mình làm CR sửa lỗi hệ thống còn nhiều hơn cả TĐHT làm CR thay đổi cấu hình.
- Lo mà giám sát không để lọt sự cố đi đã em ạ. BO xử lý lỗi chậm chỉ bị mắng trình độ kém, xử lý lâu quá thì đã có đối tác hỗ trợ; FO giám sát mà để lọt sự cố, dù là chậm 1’ cũng bị mắng là vô dụng. Cơ mà không ai đánh thuế giấc mơ đâu, cứ mơ thấy tương lai sáng lạn để có động lực sáng mai còn đi làm tiếp nhé.