第二天早上六點(diǎn),手機(jī)在床頭柜上唱歌。
路文濤迷糊中以為鬧鐘響了,但不對(duì),鬧鐘是許巍的歌,現(xiàn)在是加拿大搖滾樂隊(duì)“Nickelback”在嘶吼,那是他設(shè)置的來電鈴音。
路文濤摸到了電話,杰瑞聲音顯得特別大:“老路,我們郊外那五十個(gè)基站今天凌晨?jī)牲c(diǎn)多自行重啟了,這次市區(qū)里的六十多個(gè)基站全部正常?!?p> “我靠!什么傻逼情況?”
有一陣子沒有說“傻逼”二字了,他脫口而出,然后,抱歉地看了一眼被驚醒的吳儷儷,去了衛(wèi)生間關(guān)著門繼續(xù)電話。
杰瑞說:“‘網(wǎng)管’上有告警,值守的兄弟當(dāng)時(shí)就發(fā)現(xiàn)了,通知了我,我們已經(jīng)和研發(fā)的兄弟在電話會(huì)議了,但是仍然沒有有價(jià)值的日志。”
“兩點(diǎn)多的事情,你怎么六點(diǎn)鐘才通知我?”
“一樣的現(xiàn)象,三分鐘就恢復(fù)正常了。下面的客戶還沒往他們上級(jí)報(bào)。技術(shù)上的事情我來組織,讓你多睡幾個(gè)小時(shí)唄,天亮了就該你去給客戶領(lǐng)導(dǎo)跪了?!?p> 路文濤嚷道:“幸好昨晚沒在客戶界面的日?qǐng)?bào)中說是電力檢修導(dǎo)致,不然丑大了!嗯,會(huì)不會(huì)恰好郊外那個(gè)區(qū)域今天凌晨電力檢修?”
杰瑞以一個(gè)技術(shù)男的邏輯冷靜地說:“等客戶上班了我就去問。我看到你昨晚的郵件了,正好驗(yàn)證,如果恰好今天也有電力檢修,那就基本驗(yàn)證了之前的結(jié)論。如果沒有電力檢修,那就基本排除了電壓的原因。家里也別扯蛋說可能是現(xiàn)場(chǎng)有外部因素影響了,聚焦我們自己的產(chǎn)品問題!”
他們很快了解到,電力公司當(dāng)天并沒有做任何操作。
17日凌晨?jī)牲c(diǎn)多,市區(qū)內(nèi)“偉中”的全部基站重啟,“萊茵電信”在那一帶的手機(jī)通信中斷了三分鐘。
21日凌晨?jī)牲c(diǎn)多,郊外“偉中”的全部基站重啟,“萊茵電信”在那一片地方的手機(jī)通信中斷了三分鐘。
地點(diǎn)不同,兩個(gè)地方基站的站型不盡相同,相同的除了“故障現(xiàn)象”,就是凌晨?jī)牲c(diǎn)多這個(gè)時(shí)間點(diǎn)。
“偉中”將技術(shù)問題處理的級(jí)別進(jìn)一步上升,公司成立了跨硬件、軟件等多個(gè)部門的攻關(guān)組,每天通報(bào)攻關(guān)進(jìn)展。
但故障現(xiàn)象未重現(xiàn),重啟時(shí)無日志記錄,產(chǎn)品研發(fā)排查了幾處疑點(diǎn),遲遲不能定位故障原因。
其它技術(shù)問題倒是已經(jīng)清理干凈,小規(guī)模驗(yàn)證能否在9月1日前通過客戶驗(yàn)收的瓶頸只在于此。
24日凌晨?jī)牲c(diǎn)多又來了一次!這次是市區(qū)內(nèi)的全部基站重啟,郊外的沒事。
算起來一個(gè)星期時(shí)間里兩個(gè)區(qū)域出現(xiàn)了三次同樣故障,每次均導(dǎo)致區(qū)域之內(nèi)所有手機(jī)在三分多鐘內(nèi)完全“沒信號(hào)”,并且別說原因,連故障規(guī)律都沒有摸清楚,前后方一樣壓力巨大。
24日晚上,路文濤、杰瑞兩個(gè)人仍在“作戰(zhàn)室”里,墻上張貼著項(xiàng)目組織結(jié)構(gòu)圖、項(xiàng)目計(jì)劃、進(jìn)度監(jiān)控,還有一幅掛歷。
路文濤新買了一副配套電腦的藍(lán)牙耳機(jī),頭戴式、帶麥克風(fēng)的。他這會(huì)兒覺得腦子轉(zhuǎn)不動(dòng)了,小憩,試試新耳機(jī)的藍(lán)牙傳送距離能有多遠(yuǎn)?只見他一會(huì)兒走近電腦,一會(huì)兒離遠(yuǎn)電腦,一會(huì)兒走出會(huì)議室往洗手間去。
杰瑞看著墻上掛歷發(fā)呆,他剛才在17日、24日上各畫了個(gè)星,在21日上畫了個(gè)圈。
路文濤回來:“不錯(cuò),電話會(huì)議神器!不過美中不足,一進(jìn)廁所門就斷掉了,不能一邊拉屎一邊開會(huì)。今后在家里參加一些無聊的會(huì)的時(shí)候,把電腦放在客廳,一邊開會(huì)一邊炒個(gè)菜是沒問題的。”
杰瑞的注意力在墻上,他突然說:“我知道了!”
“你知道什么了?”
“規(guī)律,我們的重啟有很明顯的規(guī)律,它是個(gè)輪回?!?p> 路文濤摘下耳機(jī),瞪著杰瑞:“輪回?四象生八卦,八卦化重啟?問題搞不掂,玄學(xué)出來了?”
杰瑞指著掛歷:“我們總想著17日、21日、24日的日期,實(shí)際上是每個(gè)星期五凌晨?jī)牲c(diǎn)市區(qū)的基站重啟,每個(gè)星期二凌晨?jī)牲c(diǎn)郊區(qū)的基站重啟,換成星期幾來看,規(guī)律就看得明顯了!接下來應(yīng)該是28日星期二凌晨郊區(qū)的基站重啟?!?p> 路文濤朝著墻上掛歷:“你這有點(diǎn)兒勉強(qiáng)吧?那為什么會(huì)這樣?我們的新版本會(huì)來大姨媽?一個(gè)星期來一次?”
“為什么會(huì)這樣?這要產(chǎn)品研發(fā)來回答,我又看不到代碼。不過,你看!”
杰瑞說著站起來,拿一支白板筆,走到掛歷前,在10日上畫了兩個(gè)星星,在14日上畫了兩個(gè)圈圈:“我們10日把城里的更新了版本,因?yàn)槟翘炜蛻衾洗蟀l(fā)飆,所以客戶要求我們多觀察兩天,確認(rèn)新版本不會(huì)比原來的更爛以后再動(dòng)郊區(qū)的,我們是在14日凌晨更新了郊區(qū)的版本。我們更新版本時(shí)正好是在凌晨?jī)牲c(diǎn)多做了一次重啟,現(xiàn)在應(yīng)該是從第一次重啟的時(shí)間開始,每運(yùn)行七天就會(huì)重啟一次,城里是10日、17日、24日,郊外是14日、21日。”
路文濤覺著他講的有邏輯了,問:“10日和14日更新版本的時(shí)候,幾十個(gè)基站都是在兩點(diǎn)多同時(shí)重啟?”
杰瑞說:“老大,我們升級(jí)是把新軟件通過‘網(wǎng)管’成批地發(fā)到基站上去的,我記得差不多都是在這個(gè)時(shí)間點(diǎn),這個(gè)可以查得到。”
一旦發(fā)現(xiàn)了問題的規(guī)律和線索,定位原因就快了。
產(chǎn)品研發(fā)團(tuán)隊(duì)找到了故障原因,新版本的軟件質(zhì)量存在問題:
軟件設(shè)計(jì)中在某處XXX字節(jié)內(nèi)存,每次應(yīng)該占用一部分然后釋放,結(jié)果它不釋放,七天之后內(nèi)存溢出,程序運(yùn)行要用到的內(nèi)存大于系統(tǒng)能提供的最大內(nèi)存,此時(shí)程序就運(yùn)行不了,導(dǎo)致自動(dòng)重啟。并且周而復(fù)始,每七天溢出、重啟一次。
一旦定位了問題原因,解決問題就快了。
他們?cè)俅胃铝塑浖?,這次產(chǎn)品研發(fā)提供的是熱補(bǔ)丁,也就是說不需要中斷業(yè)務(wù),不需要重啟設(shè)備就可以修復(fù)當(dāng)前版本的缺陷。換上新的軟件之后,再?zèng)]有發(fā)生基站在半夜自己重啟的“怪事”。
終于,“偉中”跌跌撞撞通過了小規(guī)模驗(yàn)證的驗(yàn)收,項(xiàng)目進(jìn)入到大規(guī)模部署基站的階段。下一階段,他們要用七個(gè)月時(shí)間在德國(guó)全境部署幾千個(gè)無線基站。
產(chǎn)品研發(fā)主管任志剛給路文濤打了一個(gè)電話,他不好意思地說:“路總,這次版本問題多了點(diǎn),一線的兄弟們辛苦了!你老大多擔(dān)待!”
“確實(shí)太爛了!內(nèi)存溢出沒告警、沒日志的?不過,我聚焦解決問題,不發(fā)泄情緒,現(xiàn)在問題解決了,公司該怎么回溯、問責(zé)版本質(zhì)量不關(guān)我的事!”
路文濤記起了什么,立即接著說:“不行,我要給你發(fā)個(gè)感謝信,感謝你及時(shí)提供版本、及時(shí)排除故障!上次大佬們威脅要把我倆對(duì)調(diào)個(gè)位置,讓我倆對(duì)換腦袋思考,對(duì)換屁股繼續(xù)撕,我在海外還沒呆夠了,而且能力有限,干不了你這個(gè)活兒!萬一大佬們還沒忘記這事,決定現(xiàn)在把你踢到德國(guó)來,讓我回去填你的坑,那我可會(huì)死得很快!”
長(zhǎng)江上游灘多流急,中游水道復(fù)雜,下游靜水潛流。在這個(gè)世紀(jì)的第二個(gè)十年,“偉中”的全球化之路就仿佛是長(zhǎng)江行船到了中游,公司在海外各國(guó)的一線團(tuán)隊(duì)常常會(huì)撞上過去不曾遇見過的挑戰(zhàn)。
這種挑戰(zhàn)區(qū)別于初登上全球化大舞臺(tái)之際因?yàn)槟吧鴣淼男迈r挑戰(zhàn),而是當(dāng)你站在舞臺(tái)中央之后,因?yàn)榫酃鉄舭涯銖念^到屁股照得纖毫畢現(xiàn)而來的復(fù)雜挑戰(zhàn)。
一波即平,一波即起,眨眼到了9月下旬,“萊茵電信客戶部”風(fēng)波又起。
這一次惹來麻煩的是偉中公司“萊茵電信”無線替換項(xiàng)目組的技術(shù)總負(fù)責(zé)杰瑞,但他惹來的麻煩卻不是一個(gè)技術(shù)問題。