目錄
1、總則. 3
2、編制方法. 3
3、運維工作職責. 3
4、運維服務管理體系. 5
4.1運維服務管理對象..
4.2 運維系統功能框架..
4.3運維管理組織結構..
4.3.1項目負責人..
4.3.2項目經理..
4.3.3技術主管..
4.3.4服務臺..
4.3.5網絡管理員.
4.3.5應用、數據庫管理員.
4.3.7終端管理員.
4.4運維服務流程.
4.4.1項目運維服務工作流程圖.
4.4.2服務臺.
3.4.3事件管理.
4.4.4工單管理.
4.4.5問題管理.
4.4.6變更管理.
4.4.7配置管理.
4.4.8知識庫管理.
4.4.9統計及工作報告.
5、運維服務內容. 15
5.1服務目標.
5.2 資產統計服務.
5.3網絡、安全系統運維服務.
5.4主機、存儲系統運維服務.
5.5數據庫系統運維服務.
5.6中間件運維服務.
5.7終端、外設運維服務.
6、應急服務響應措施. 19
6.1應急預案實施基本流程.
6.2突發事件應急策略.
7、服務管理制度規范. 21
7.1服務時間.
7.2行為規范.
1、總則
第一條 為保障公司信息系統軟硬件設備的良好運行,使員工的運維工作制度化、流程化、規范化,特制訂本制度。
第二條 運維工作總體目標:立足根本促發展,開拓運維新局面。在企業發展壯大時期,通過網絡、桌面、系統等的運維,促進企業穩定可持續性發展。
第三條 運維管理制度的適用范圍:運維部全體人員。
2、編制方法
本實施細則包括運維服務全生命周期管理方法、管理標準/規范、管理模式、管理支撐工具、管理對象以及基于流程的管理方法。
本實施細則以ITIL/ISO20000為基礎,以信息化項目的運維為目標,以管理支撐工具為手段,以流程化、規范化、標準化管理為方法,以全生命周期的PDCA循環為提升途徑,體現了對運維服務全過程的體系化管理。
一、負責網站運維和技術支持
(一)根據網站運營戰略和目標負責網站整體架構、欄目、應用系統等技術開發方案制定和組織開發,保障網站技術的穩定性和先進性。
(二)負責網站欄目和應用系統的使用培訓和操作使用指南編寫,對用戶使用過程中出現問題的溝通和解決;
(三)網站設備和軟件購買計劃書的擬定,包括采購數量、品牌規格、技術參數。會同行政部進行采購。
(四)網站設備和軟件操作規程和應用管理制度的制定,并負責監督執行。
(五)網站設備和軟件安裝、調試和驗收,使用培訓和維修保養。
(六)網站日常運行過程中信息安全和技術問題的協調解決,保障網站24小時安全穩定運行。
(七)網站技術服務外包管理,主要包括技術外包開發、運行服務托管和空間域名管理。
(八)負責網站管理系統及設備保密口令的設置和保存,保密口令設置后報中心主任備案,保密口令設定后任何人不得隨意更改,保密口令每季度更新一次。
(九)負責網站新程序、新系統和網站改版升級方案技術的設計開發。
二、負責網站信息和技術安全
(一)執行國家和省上有關網絡信息技術安全的法律法規,與通信管理和網絡安全監管部門聯絡,及時處理網站信息技術安全方面存在的問題,確保網站安全、穩定、可靠運行。
(二)網站信息技術安全保密制度和工作流程的制定,落實信息技術安全保密責任制,執行“誰主管、誰負責,誰主辦、誰負責”的原則,責任到人。
( 三 )在服務器和計算機之間設置硬件防火墻,在服務器及工作站上均安裝防病毒軟件,進行硬件和技術雙保護,確保網站不受病毒和黑客攻擊。
(四)負責網站信息技術安全應急處理預案制定和實施。
(五)安排專人監控網站各頻道,各頁面,各版塊,各欄目信息內容,建立網站信息技術安全監控值班登記制度,發現問題及時處理,并登記問題和處理結果登記;
(六)建立多機備份網站信息服務系統機制,一旦主系統遇到故障或受到攻擊導致不能正常運行,可以在最短的時間內替換主系統提供服務。
(七)建立網站系統集中式權限管理,按照崗位職責設定工作人員操作權限,針對不同應用系統、終端、操作人員,設置共享數據庫信息的訪問權限,并設置密碼。不同的操作人員設定不同的用戶名,且定期更換,嚴禁操作人員泄漏密碼。
4、運維服務管理體系
運維服務管理體系規定了運維活動涉及的各類實體,以及這些實體間的相互關系。相關的實體按照運維服務管理體系進行有機組織,并協調工作,按照服務協議要求提供不同級別的IT運維服務。
4.1運維服務管理對象
運維服務管理對象包括基礎設施、應用系統、用戶、供應商、以及IT運維部門和人員,具體內容如下:
(1)基礎設施包括網絡、主機系統、存儲/備份系統、終端系統、安全系統、以及機房動力環境等。
(2)應用系統包括內部辦公系統、門戶網站、面向公眾的應用系統等。
(3)用戶包括使用如上應用系統的用戶。
(4)供應商包括基礎設施和應用系統的供應商以及IT運維服務的供應商。
(5)運維部門和人員包括內部參與運維活動的相關部門和人員,以及提供運維服務的企業和相關人員。
4.2 運維系統功能框架
根據建設單位的系統結構和業務開展需要,運維項目組將項目的維護框架分為9個具體組成部分,分別為:服務臺、時間管理。工單管理、問題管理、變更管理、配置管理、工程師考核、知識庫管理、統計、系統管理等9個子項。而具體運維流程將以此為依據開展工作。
4.3運維管理組織結構
本運維項目的運維管理結構位三層模式,具體如下圖所示。由項目負責人與甲方進行業務范圍接洽,并將溝通結果向下傳遞。項目經理負責項目的整體運維工作,包括各種制度的制定和實施。運維工程師則在項目經理的指導下開展維護工作。
4.3.1項目負責人
職責:負責項目商務、整體協調事宜。
職位描述:
1)、整體負責建設單位運維項目服務計劃的制定,領導項目經理并安排項目工作,指導項目經理完成具體維護工作,每周聽取項目經理的工作匯報,負責考核項目經理工作完成情況。
2)、協助建設單位完成新增項目的調研、方案設計并指導項目經理進行具體實施。
4.3.2項目經理
職責:規劃、執行、完善信息化項目的運維工作,指導網絡、數據庫維護工程師開展工作。
職位描述:
1、根據公司戰略目標,指導下屬工程師開展客戶服務工作,確保運維工作能夠滿足客戶的實際需要;
2、建立和持續完善運維管理體系,優化運維流程流程,解決運維服務中出現的特殊問題;
3、規劃并提升運維工程師專業服務能力,在整體上提高客戶滿意度;
4、制定和持續完善績效考核體系;
5、制定整理運維項目的應急預案系統,并指導運維工程師實施;
6、提高自身專業技能,在業務方面給予網絡管理員和數據庫管理員指導。
4.3.3技術主管
職責:應用、數據庫管理,oracle性能調優,實現應用負載均衡。
職位描述:
1、 技術主管非項目常駐人員,根據項目需要進行專業方面指導;
2、 負責數據庫性能分析與調優,數據庫運行狀態監控,及時發現異常并快速處理。
3、 熟練掌握Oracle10G的RAC技術,能夠實現部署及調優。
4、 掌握WAS、Weblogic、Tomcat、websphere等中間件的工作原理,能夠實現部署調優及故障解決。
5、 熟練掌握red-flag、redhat等linux操作系統,部署oracle10g、mysql數據庫。熟練掌握dataguard技術,保證oracle數據庫冗災、數據保護、故障恢復。
6、 負責應用負載均衡的部署和調試。
7、 負責指導數據庫工程師管理員開展工作。
4.3.4服務臺
職責:故障電話受理,文檔管理。
職位描述
1、 負責業務的救助電話的受理工作;
2、 故障處理的發起人,同時進行維護工程師指派,跟蹤事件處理狀態;
3、 進行維護故障統計、用戶滿意度統計、工作報表輸出等工作;
4、 協助項目經理,進行文檔整理、歸類、保存等工作。
4.3.5網絡管理員
職責:維護建設單位網絡系統正常,解決網絡相關故障。
職位描述:
1、對現有服務器、局域網絡及機房、配線間的日常管理維護;
2、對信息安全建設提出相關建議,確保網絡的安全;
3、保證外網光纖線路正常,保證局域網運行正常;
4、對網絡系統和網絡設備的運行狀態進行監控;
5、熟練掌握域策略設置、DHCP、DNS、FTP服務器、NTFS權限設置等;
6、編寫網絡部分的應用處理預案并實施。
7、工作認真、細致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.
4.3.5應用、數據庫管理員
職責:維護建設單位業務系統運行正常,解決應用和數據庫故障。
職位描述:
1、監測業務系統運行狀況,應用、數據庫性能監視及優化,作必要調整;
2、規劃不同數據的生命周期,制訂備份、恢復、遷移和災備策略,根據業務的需要執行數據轉換及遷移等操作;
3、保證應用和數據庫系統的安全性、完整性和運行效率。
4、負責數據庫平臺的整體架構及解決方案的制定和實施;
5、工作認真、細致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.
4.3.7終端管理員
職責:維護建設單位桌面系統運行正常,解決終端、外設故障。
職位描述:
1、各部門電腦、打印機、傳真機的維護;
2、對各部門職員進行電腦相關的技術支持及培訓工作;
3、精通Windows XP及Office的使用,能夠熟練使用Excel2003、Excel2007及以上版本,能夠制作相應教程對其他部門員工進行培訓
4.4運維服務流程
IT運維服務管理流程涉及服務臺、事件管理、問題管理、配置管理、變更管理、發布管理、服務級別管理、財務管理、能力管理、可用性管理、服務持續性管理、知識管理及供應商管理等,隨著運維活動的不斷深入和持續改進,其他流程可能會逐步獨立并規范。
4.4.1項目運維服務工作流程圖
4.4.2服務臺
服務臺是支持運維服務的核心功能,與各個流程聯系密切。所有管理流程都要通過服務臺為用戶提供單點聯系,解答用戶的相關問題和需求,或為用戶尋求相應的支持人員。
在本系統中,服務臺是接收各種來源服務請求和相關信息反饋的唯一入口和出口,同時服務臺還負責一般請求、通過知識庫(歷史事件)能夠解決的請求;他也是復雜問題二線處理的橋梁。
4.4.3事件管理
事件管理流程的主要目標是盡快恢復服務提供并減少其對業務的不利影響,盡可能保證最好的服務質量和可用性等級。事件管理流程通常涉及事件的偵測和記錄、事件的分類和支持、事件的調查和診斷、事件的解決和恢復以及事件的關閉。
本系統把所有服務請求和報警歸結為事件。事件管理是提供服務臺和事件管理者對于事件記錄、處理、查詢、審核、派發等功能。它也包括通過和第三方監控系統對接,把其發送報警形成事件的功能。
4.4.4工單管理
工單管理:工單是現場運維、二線支持的任務載體,運維工程依據所接收工單進行運維工作。工單管理是對工單實現創建、變更、查詢瀏覽、派發、監督等功能的模塊。
4.4.5問題管理
問題管理流程的主要目標是預防問題和事故的再次發生,并將未能解決的事件的影響降低到最小。問題管理流程包括診斷事件根本原因和確定問題解決方案所需要的活動,通過合適的控制過程,尤其是變更管理和發布管理,負責確保解決方案的實施。問題管理還將維護有關問題、應急方案和解決方案的信息。
問題管理是針對已處理事件的遺留問題或處理事件的方案只是治標不治本的不能徹底解決問題而考慮的模塊。根據事件、及處理方案,問題處理人經過調查、診斷并提出最終解決方法。
4.4.6變更管理
變更管理實現所有基礎設施和應用系統的變更,變更管理應記錄并對所有要求的變更進行分類,應評估變更請求的風險、影響和業務收益。其主要目標是以對服務最小的干擾實現有益的變更。
變更管理是要對重大資源的新增、變更、升級等運維活動進行審核的功能,以免這些活動對現有資源的可用性造成沒有必要的影響和破壞;同時,他還要實現在工單中產生的變化進行后審計的功能。
4.4.7配置管理
配置管理流程負責核實基礎設施和應用系統中實施的變更以及配置項之間的關系是否已經被正確記錄下來;確保配置管理數據庫能夠準確地反映現存配置項的實際版本狀態。
配置管理實際上是全部資源的統一管理的功能,包括資源整個生命周期的參數或配置的變化記錄的管理。管理信息主要涉及分類、型號、版本、位置,狀態、相關資料等基本信息還包括核心參數等
4.4.8知識庫管理
知識庫管理:知識庫是提供給運維人員重要的技術資料內容,他匯集在工作的遇到的典型案例歸納總結的知識要點和全面實用資料手冊。在本系統中,知識庫管理提供便于使用的人機接口、快速查詢的技術手段和維護手段。
4.4.9統計及工作報告
運維管理系統提供一線解決率統計、客戶滿意度統計、按分類的事件匯總統計、工作報告生成的功能,按照一定格式根據事件數據、工單數據、問題數據、配置數據、變更數據可以幫助運維管理者能把運維的所做的工作內容清晰的羅列出來。
5、運維服務內容
5.1服務目標
運維項目組提供的運行維護服務包括,信息系統相關的主機設備、操作系統、數據庫和存儲設備的運行維護服務,保證用戶現有的信息系統的正常運行,降低整體管理成本,提高網絡信息系統的整體服務水平。同時根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的保障。
用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件(如:數據庫軟件、中間件軟件等)、業務應用軟件等。
服務項目范圍覆蓋的信息系統資源以下方面的關鍵狀態及參數指標:
運行狀態、故障情況
配置信息
可用性情況及健康狀況性能指標
5.2 IT資產統計服務
服務內容包括:
硬件設備型號、數量、版本等信息統計記錄
軟件產品型號、版本和補丁等信息統計記錄
網絡結構、網絡路由、網絡IP地址統計記錄
綜合布線系統結構圖的繪制
其它附屬設備的統計記錄
5.3網絡、安全系統運維服務
從網絡的連通性、網絡的性能、網絡的監控管理三個方面實現對網絡系統的運維管理。
設備基礎性能檢測:cpu、內存使用情況監測;
設備日志查看;
設備snmp狀態;
測試Ping,tracert等工具的連通性;
網絡安全策略應用是否正常;
Internet帶寬流量的實時監測;
網絡拓撲鏈路狀態監測;
異常網絡數據包流量;
Dos、ddos等網絡攻擊情況監測;
Internet線路的誤碼率、丟包率監測;
5.4主機、存儲系統運維服務
提供的主機、存儲系統的運維服務包括:主機、存儲設備的日常監控,設備的運行狀態監控,故障處理,操作系統維護,補丁升級等內容。
進行監控管理的內容包括:
CPU 性能管理;
內存使用情況管理;
硬盤利用情況管理;
系統進程管理;
主機性能管理;
實時監控主機電源、風扇的使用情況及主機機箱內部溫度;
監控主機硬盤運行狀態;
監控主機網卡、陣列卡等硬件狀態;
監控主機HA運行狀況;
主機系統文件系統管理;
監控存儲交換機設備狀態、端口狀態、傳輸速度;
監控備份服務進程、備份情況(起止時間、是否成功、出錯告警);
監控記錄磁盤陣列、磁帶庫等存儲硬件故障提示和告警,并及時解決故障問題;
對存儲的性能(如高速緩存、光纖通道等)進行監控。
5.5數據庫系統運維服務
提供的數據庫運行維護服務是包括主動數據庫性能管理,數據庫的主動性能管理對系統運維非常重要。通過主動式性能管理可了解數據庫的日常運行狀態,識別數據庫的性能問題發生在什么地方,有針對性地進行性能優化。同時,密切注意數據庫系統的變化,主動地預防可能發生的問題。
進行監控管理的內容包括:
數據庫基本信息:文件系統、碎片、死鎖、CPU占用率較大或時間較長的SQL語句。
表空間使用信息監測;
數據庫文件I/0讀寫情況;
Session連接數量監控;
數據庫監聽運行狀態監測;
查看每日數據備份、數據同步是否正常;
報警日志監測;
對表和索引進行Analyze,檢查表空間碎片;
檢測數據庫后臺進程;
數據庫對象的空間擴展情況監測;
5.6中間件運維服務
中間件管理是指對BEA Weblogic、tomcat、MQ等中間件的日常維護管理和監控工作,提高對中間件平臺事件的分析解決能力,確保中間件平臺持續穩定運行。中間件監控指標包括配置信息管理、故障監控、性能監控。
執行線程:監控中間件配置執行線程的空閑數量。
JVM內存:JVM內存曲線正常,能夠及時的進行內存空間回收。
JDBC連接池:連接池的初始容量和最大容量應該設置為相等,并且至少等于執行線程的數量,以避免在運行過程中創建數據庫連接所帶來的性能消耗。
檢查中間件日志文件是否有異常報錯
如果有中間件集群配置,需要檢查集群的配置是否正常。
5.7終端、外設運維服務
負責對終端PC、筆記本以及工作站的操作系統、應用軟件和硬件的維護,解決使用人員在應用過程中遇到的問題并進行簡單培訓,完成打印機等其他外設的故障處理工作。
6、應急服務響應措施
運維項目組制定了詳盡的應急處理預案,整個流程嚴謹而有序。但在服務維護過程中,意外情況將難以完全避免。我們將對項目實施的突發風險進行詳細分析,并且針對各類突發事件,設計了相應的預防與解決措施,同時提供了完整的應急處理流程。
6.1應急預案實施基本流程
6.2突發事件應急策略
(1)值班人員平時應做好應急事件的監控工作,對于突發事件應認真分析、準確判定故障發生的數據域,負責跟蹤該事件直至其結束。對于不在運維中心的故障,應在第一時間內通知負責人去現場處理,密切關注事件流程及進展情況,并做好登記工作上報領導。
(2)正常情況下,要求值班人員在10分鐘內進行事件確認。如果屬于一般事件則按照事件流程進行分派處理,否則應迅速啟動《應急預案》,并嚴格按照《應急預案》所規定的步驟快速實施應急處置,及時匯報上級領導,掌握實時處理情況。
(3)在處理過程中,如需其他部門去現場增援處理,應及時向上級領導部門匯報,協調溝通,盡快聯系技術工程師或廠家技術支持趕赴現場援助處理。
7、服務管理制度規范
7.1服務時間
(1) 在5*8 小時工作時間內設置由專人職守的熱線電話,接聽內部的服務請求,并記錄服務臺事件處理結果。
(2) 在非工作時間設置有專人7*24 小時接聽的移動電話熱線,用于解決內部的技術問題以及接聽7*24 小時機房監控人員的機房突發情況匯報。
(3) 服務響應時間:
故障級別 |
響應時間 |
故障解決時間 |
I級:屬于緊急問題;其具體現象為:系統崩潰導致業務停止、數據丟失。 |
10分鐘,30分鐘內提交故障處理方案 |
3小時以內 |
II級:屬于嚴重問題;其具體現象為:出現部分部件失效、系統性能下降但能正常運行,不影響正常業務運作。 |
10分鐘,30分鐘內提交故障處理方案 |
6小時以內 |
III級:屬于較嚴重問題;其具體現象為:出現系統報錯或警告,但業務系統能繼續運行且性能不受影響。 |
10分鐘,30分鐘內提交故障處理方案 |
12小時以內 |
IV級:屬于普通問題;其具體現象為:系統技術功能、安裝或配置咨詢,或其他顯然不影響業務的預約服務。 |
10分鐘,2小時內提交故障處理方案 |
24小時以內 |
(1) 遵守用戶的各項規章制度,嚴格按照用戶相應的規章制度辦事。
(2) 與用戶運行維護體系其他部門和環節協同工作,密切配合,共同開展技術支持工作。
(3) 出現疑難技術、業務問題和重大緊急情況時,及時向負責人報告。
(4) 現場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電話時要文明禮貌,語言清晰明了,語氣和善。
(5) 遵守保密原則。對被支持單位的網絡、主機、系統軟件、應用軟件等的密碼、核心參數、業務數據等負有保密責任,不得隨意復制和傳播。
篇2:公司運維部總監崗位說明書
公司運維部總監崗位說明書
職位名稱:總監
(POSITION ) 所在部門:運維部
(DEPT.)
職位編碼:
(CODE) 編制日期:
(DATE)
職位概要:
綜合管理公司運維工作,協調與各相關部門的關系,主持公司運維的規章管理制度的編制并負責監督實施,領導、管理、培訓本部門員工實現部門的長短期目標,為公司的業務發展及戰略目標的實現提供強有力的管理和運行維護的支持。
職位職責(DUTY AND RESPONSIBLITY)
1.全面負責本部門的建設、維護管理工作,制定各項規章制度及技術規程,制定技術維護責任制度并負責組織實施。
2.掌握全網的運行質量狀況,制定并分解落實質量考核指標。
3.建立質量監督檢查體系,定期下基層對通信生產過程和質量進行監督檢查,發現問題,及時采取措施解決,密切配合其他部門的工作,發現問題及時處理。
4.負責安排、審定全網干線大修、更新、改造計劃,審核全網維護費用計劃并組織實施。
5.組織進行全網干線質量驗收和進網設備質量的把關工作
6.指導、督促各分公司及代維單位進行正常維護和障礙處理工作。
7.制定技術人員專業培訓計劃,不斷提高業務水平和工作能力。
關鍵績效指標(KPI)
保證運維工作的正常開展,對網管中心、各分公司及代維單位的維護工作進行指導和監督,保障運維體制的完整和正常運轉;無責任性失誤
任職資格(REQUIREMENT)
項目(CATEGORY) 必備要求(JUNIOR) 期望要求(SENIOR)
學歷及專業要求: 本科;電信或計算機相關專業 碩士;計算機或電信相關專業本科畢業,企業管理碩士或MBA畢業。
所需資格證書: 學歷證明 學歷證明
工作經驗: 5年以上相關工作經驗, 計算機或電信相關專業高級職稱,有電信運維豐富經驗
知識要求: 熟悉各種通信網絡的結構、各種電信維護管理知識、熟悉各類通信技術包括傳輸原理和路由交換等 熟悉DWDM、SDH、IP及其網管系統
技能要求: 熟練通信設備的操作, 較強文字編寫能力 有編寫相關管理制度的經驗
能力要求: 良好組織能力和協調能力、較強接受能力及邏輯思維能力 較強的分析問題和解決問題的能力
個性要求: 強烈的責任心,細致的工作作風 支配性與參謀特質兼備
主要關系(CONTACT)
關系性質 關系對象
直接上級 總裁
直接下級 各室經理
內部溝通 公司各部門,各分公司
外部溝通 各代維單位、設備廠家、系統集成商
職位環境和條件(WORKING CONDITIONS)
經常性工作場所、工作設備、工作時間、工作條件:
工作場所:運維部內80%,運維部外20%;
設備運用:電話、電腦、復印機、傳真機等
篇3:運維制度及流程
目錄
1、總則. 3
2、編制方法. 3
3、運維工作職責. 3
4、運維服務管理體系. 5
4.1運維服務管理對象..
4.2 運維系統功能框架..
4.3運維管理組織結構..
4.3.1項目負責人..
4.3.2項目經理..
4.3.3技術主管..
4.3.4服務臺..
4.3.5網絡管理員.
4.3.5應用、數據庫管理員.
4.3.7終端管理員.
4.4運維服務流程.
4.4.1項目運維服務工作流程圖.
4.4.2服務臺.
3.4.3事件管理.
4.4.4工單管理.
4.4.5問題管理.
4.4.6變更管理.
4.4.7配置管理.
4.4.8知識庫管理.
4.4.9統計及工作報告.
5、運維服務內容. 15
5.1服務目標.
5.2 資產統計服務.
5.3網絡、安全系統運維服務.
5.4主機、存儲系統運維服務.
5.5數據庫系統運維服務.
5.6中間件運維服務.
5.7終端、外設運維服務.
6、應急服務響應措施. 19
6.1應急預案實施基本流程.
6.2突發事件應急策略.
7、服務管理制度規范. 21
7.1服務時間.
7.2行為規范.
1、總則
第一條 為保障公司信息系統軟硬件設備的良好運行,使員工的運維工作制度化、流程化、規范化,特制訂本制度。
第二條 運維工作總體目標:立足根本促發展,開拓運維新局面。在企業發展壯大時期,通過網絡、桌面、系統等的運維,促進企業穩定可持續性發展。
第三條 運維管理制度的適用范圍:運維部全體人員。
2、編制方法
本實施細則包括運維服務全生命周期管理方法、管理標準/規范、管理模式、管理支撐工具、管理對象以及基于流程的管理方法。
本實施細則以ITIL/ISO20000為基礎,以信息化項目的運維為目標,以管理支撐工具為手段,以流程化、規范化、標準化管理為方法,以全生命周期的PDCA循環為提升途徑,體現了對運維服務全過程的體系化管理。
一、負責網站運維和技術支持
(一)根據網站運營戰略和目標負責網站整體架構、欄目、應用系統等技術開發方案制定和組織開發,保障網站技術的穩定性和先進性。
(二)負責網站欄目和應用系統的使用培訓和操作使用指南編寫,對用戶使用過程中出現問題的溝通和解決;
(三)網站設備和軟件購買計劃書的擬定,包括采購數量、品牌規格、技術參數。會同行政部進行采購。
(四)網站設備和軟件操作規程和應用管理制度的制定,并負責監督執行。
(五)網站設備和軟件安裝、調試和驗收,使用培訓和維修保養。
(六)網站日常運行過程中信息安全和技術問題的協調解決,保障網站24小時安全穩定運行。
(七)網站技術服務外包管理,主要包括技術外包開發、運行服務托管和空間域名管理。
(八)負責網站管理系統及設備保密口令的設置和保存,保密口令設置后報中心主任備案,保密口令設定后任何人不得隨意更改,保密口令每季度更新一次。
(九)負責網站新程序、新系統和網站改版升級方案技術的設計開發。
二、負責網站信息和技術安全
(一)執行國家和省上有關網絡信息技術安全的法律法規,與通信管理和網絡安全監管部門聯絡,及時處理網站信息技術安全方面存在的問題,確保網站安全、穩定、可靠運行。
(二)網站信息技術安全保密制度和工作流程的制定,落實信息技術安全保密責任制,執行“誰主管、誰負責,誰主辦、誰負責”的原則,責任到人。
( 三 )在服務器和計算機之間設置硬件防火墻,在服務器及工作站上均安裝防病毒軟件,進行硬件和技術雙保護,確保網站不受病毒和黑客攻擊。
(四)負責網站信息技術安全應急處理預案制定和實施。
(五)安排專人監控網站各頻道,各頁面,各版塊,各欄目信息內容,建立網站信息技術安全監控值班登記制度,發現問題及時處理,并登記問題和處理結果登記;
(六)建立多機備份網站信息服務系統機制,一旦主系統遇到故障或受到攻擊導致不能正常運行,可以在最短的時間內替換主系統提供服務。
(七)建立網站系統集中式權限管理,按照崗位職責設定工作人員操作權限,針對不同應用系統、終端、操作人員,設置共享數據庫信息的訪問權限,并設置密碼。不同的操作人員設定不同的用戶名,且定期更換,嚴禁操作人員泄漏密碼。
4、運維服務管理體系
運維服務管理體系規定了運維活動涉及的各類實體,以及這些實體間的相互關系。相關的實體按照運維服務管理體系進行有機組織,并協調工作,按照服務協議要求提供不同級別的IT運維服務。
4.1運維服務管理對象
運維服務管理對象包括基礎設施、應用系統、用戶、供應商、以及IT運維部門和人員,具體內容如下:
(1)基礎設施包括網絡、主機系統、存儲/備份系統、終端系統、安全系統、以及機房動力環境等。
(2)應用系統包括內部辦公系統、門戶網站、面向公眾的應用系統等。
(3)用戶包括使用如上應用系統的用戶。
(4)供應商包括基礎設施和應用系統的供應商以及IT運維服務的供應商。
(5)運維部門和人員包括內部參與運維活動的相關部門和人員,以及提供運維服務的企業和相關人員。
4.2 運維系統功能框架
根據建設單位的系統結構和業務開展需要,運維項目組將項目的維護框架分為9個具體組成部分,分別為:服務臺、時間管理。工單管理、問題管理、變更管理、配置管理、工程師考核、知識庫管理、統計、系統管理等9個子項。而具體運維流程將以此為依據開展工作。
4.3運維管理組織結構
本運維項目的運維管理結構位三層模式,具體如下圖所示。由項目負責人與甲方進行業務范圍接洽,并將溝通結果向下傳遞。項目經理負責項目的整體運維工作,包括各種制度的制定和實施。運維工程師則在項目經理的指導下開展維護工作。
4.3.1項目負責人
職責:負責項目商務、整體協調事宜。
職位描述:
1)、整體負責建設單位運維項目服務計劃的制定,領導項目經理并安排項目工作,指導項目經理完成具體維護工作,每周聽取項目經理的工作匯報,負責考核項目經理工作完成情況。
2)、協助建設單位完成新增項目的調研、方案設計并指導項目經理進行具體實施。
4.3.2項目經理
職責:規劃、執行、完善信息化項目的運維工作,指導網絡、數據庫維護工程師開展工作。
職位描述:
1、根據公司戰略目標,指導下屬工程師開展客戶服務工作,確保運維工作能夠滿足客戶的實際需要;
2、建立和持續完善運維管理體系,優化運維流程流程,解決運維服務中出現的特殊問題;
3、規劃并提升運維工程師專業服務能力,在整體上提高客戶滿意度;
4、制定和持續完善績效考核體系;
5、制定整理運維項目的應急預案系統,并指導運維工程師實施;
6、提高自身專業技能,在業務方面給予網絡管理員和數據庫管理員指導。
4.3.3技術主管
職責:應用、數據庫管理,oracle性能調優,實現應用負載均衡。
職位描述:
1、 技術主管非項目常駐人員,根據項目需要進行專業方面指導;
2、 負責數據庫性能分析與調優,數據庫運行狀態監控,及時發現異常并快速處理。
3、 熟練掌握Oracle10G的RAC技術,能夠實現部署及調優。
4、 掌握WAS、Weblogic、Tomcat、websphere等中間件的工作原理,能夠實現部署調優及故障解決。
5、 熟練掌握red-flag、redhat等linux操作系統,部署oracle10g、mysql數據庫。熟練掌握dataguard技術,保證oracle數據庫冗災、數據保護、故障恢復。
6、 負責應用負載均衡的部署和調試。
7、 負責指導數據庫工程師管理員開展工作。
4.3.4服務臺
職責:故障電話受理,文檔管理。
職位描述
1、 負責業務的救助電話的受理工作;
2、 故障處理的發起人,同時進行維護工程師指派,跟蹤事件處理狀態;
3、 進行維護故障統計、用戶滿意度統計、工作報表輸出等工作;
4、 協助項目經理,進行文檔整理、歸類、保存等工作。
4.3.5網絡管理員
職責:維護建設單位網絡系統正常,解決網絡相關故障。
職位描述:
1、對現有服務器、局域網絡及機房、配線間的日常管理維護;
2、對信息安全建設提出相關建議,確保網絡的安全;
3、保證外網光纖線路正常,保證局域網運行正常;
4、對網絡系統和網絡設備的運行狀態進行監控;
5、熟練掌握域策略設置、DHCP、DNS、FTP服務器、NTFS權限設置等;
6、編寫網絡部分的應用處理預案并實施。
7、工作認真、細致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.
4.3.5應用、數據庫管理員
職責:維護建設單位業務系統運行正常,解決應用和數據庫故障。
職位描述:
1、監測業務系統運行狀況,應用、數據庫性能監視及優化,作必要調整;
2、規劃不同數據的生命周期,制訂備份、恢復、遷移和災備策略,根據業務的需要執行數據轉換及遷移等操作;
3、保證應用和數據庫系統的安全性、完整性和運行效率。
4、負責數據庫平臺的整體架構及解決方案的制定和實施;
5、工作認真、細致,積極主動有條理性,具有良好的溝通能力及團隊合作精神.
4.3.7終端管理員
職責:維護建設單位桌面系統運行正常,解決終端、外設故障。
職位描述:
1、各部門電腦、打印機、傳真機的維護;
2、對各部門職員進行電腦相關的技術支持及培訓工作;
3、精通Windows XP及Office的使用,能夠熟練使用Excel2003、Excel2007及以上版本,能夠制作相應教程對其他部門員工進行培訓
4.4運維服務流程
IT運維服務管理流程涉及服務臺、事件管理、問題管理、配置管理、變更管理、發布管理、服務級別管理、財務管理、能力管理、可用性管理、服務持續性管理、知識管理及供應商管理等,隨著運維活動的不斷深入和持續改進,其他流程可能會逐步獨立并規范。
4.4.1項目運維服務工作流程圖
4.4.2服務臺
服務臺是支持運維服務的核心功能,與各個流程聯系密切。所有管理流程都要通過服務臺為用戶提供單點聯系,解答用戶的相關問題和需求,或為用戶尋求相應的支持人員。
在本系統中,服務臺是接收各種來源服務請求和相關信息反饋的唯一入口和出口,同時服務臺還負責一般請求、通過知識庫(歷史事件)能夠解決的請求;他也是復雜問題二線處理的橋梁。
4.4.3事件管理
事件管理流程的主要目標是盡快恢復服務提供并減少其對業務的不利影響,盡可能保證最好的服務質量和可用性等級。事件管理流程通常涉及事件的偵測和記錄、事件的分類和支持、事件的調查和診斷、事件的解決和恢復以及事件的關閉。
本系統把所有服務請求和報警歸結為事件。事件管理是提供服務臺和事件管理者對于事件記錄、處理、查詢、審核、派發等功能。它也包括通過和第三方監控系統對接,把其發送報警形成事件的功能。
4.4.4工單管理
工單管理:工單是現場運維、二線支持的任務載體,運維工程依據所接收工單進行運維工作。工單管理是對工單實現創建、變更、查詢瀏覽、派發、監督等功能的模塊。
4.4.5問題管理
問題管理流程的主要目標是預防問題和事故的再次發生,并將未能解決的事件的影響降低到最小。問題管理流程包括診斷事件根本原因和確定問題解決方案所需要的活動,通過合適的控制過程,尤其是變更管理和發布管理,負責確保解決方案的實施。問題管理還將維護有關問題、應急方案和解決方案的信息。
問題管理是針對已處理事件的遺留問題或處理事件的方案只是治標不治本的不能徹底解決問題而考慮的模塊。根據事件、及處理方案,問題處理人經過調查、診斷并提出最終解決方法。
4.4.6變更管理
變更管理實現所有基礎設施和應用系統的變更,變更管理應記錄并對所有要求的變更進行分類,應評估變更請求的風險、影響和業務收益。其主要目標是以對服務最小的干擾實現有益的變更。
變更管理是要對重大資源的新增、變更、升級等運維活動進行審核的功能,以免這些活動對現有資源的可用性造成沒有必要的影響和破壞;同時,他還要實現在工單中產生的變化進行后審計的功能。
4.4.7配置管理
配置管理流程負責核實基礎設施和應用系統中實施的變更以及配置項之間的關系是否已經被正確記錄下來;確保配置管理數據庫能夠準確地反映現存配置項的實際版本狀態。
配置管理實際上是全部資源的統一管理的功能,包括資源整個生命周期的參數或配置的變化記錄的管理。管理信息主要涉及分類、型號、版本、位置,狀態、相關資料等基本信息還包括核心參數等
4.4.8知識庫管理
知識庫管理:知識庫是提供給運維人員重要的技術資料內容,他匯集在工作的遇到的典型案例歸納總結的知識要點和全面實用資料手冊。在本系統中,知識庫管理提供便于使用的人機接口、快速查詢的技術手段和維護手段。
4.4.9統計及工作報告
運維管理系統提供一線解決率統計、客戶滿意度統計、按分類的事件匯總統計、工作報告生成的功能,按照一定格式根據事件數據、工單數據、問題數據、配置數據、變更數據可以幫助運維管理者能把運維的所做的工作內容清晰的羅列出來。
5、運維服務內容
5.1服務目標
運維項目組提供的運行維護服務包括,信息系統相關的主機設備、操作系統、數據庫和存儲設備的運行維護服務,保證用戶現有的信息系統的正常運行,降低整體管理成本,提高網絡信息系統的整體服務水平。同時根據日常維護的數據和記錄,提供用戶信息系統的整體建設規劃和建議,更好的為用戶的信息化發展提供有力的保障。
用戶信息系統的組成主要可分為兩類:硬件設備和軟件系統。硬件設備包括網絡設備、安全設備、主機設備、存儲設備等;軟件設備可分為操作系統軟件、典型應用軟件(如:數據庫軟件、中間件軟件等)、業務應用軟件等。
服務項目范圍覆蓋的信息系統資源以下方面的關鍵狀態及參數指標:
運行狀態、故障情況
配置信息
可用性情況及健康狀況性能指標
5.2 IT資產統計服務
服務內容包括:
硬件設備型號、數量、版本等信息統計記錄
軟件產品型號、版本和補丁等信息統計記錄
網絡結構、網絡路由、網絡IP地址統計記錄
綜合布線系統結構圖的繪制
其它附屬設備的統計記錄
5.3網絡、安全系統運維服務
從網絡的連通性、網絡的性能、網絡的監控管理三個方面實現對網絡系統的運維管理。
設備基礎性能檢測:cpu、內存使用情況監測;
設備日志查看;
設備snmp狀態;
測試Ping,tracert等工具的連通性;
網絡安全策略應用是否正常;
Internet帶寬流量的實時監測;
網絡拓撲鏈路狀態監測;
異常網絡數據包流量;
Dos、ddos等網絡攻擊情況監測;
Internet線路的誤碼率、丟包率監測;
5.4主機、存儲系統運維服務
提供的主機、存儲系統的運維服務包括:主機、存儲設備的日常監控,設備的運行狀態監控,故障處理,操作系統維護,補丁升級等內容。
進行監控管理的內容包括:
CPU 性能管理;
內存使用情況管理;
硬盤利用情況管理;
系統進程管理;
主機性能管理;
實時監控主機電源、風扇的使用情況及主機機箱內部溫度;
監控主機硬盤運行狀態;
監控主機網卡、陣列卡等硬件狀態;
監控主機HA運行狀況;
主機系統文件系統管理;
監控存儲交換機設備狀態、端口狀態、傳輸速度;
監控備份服務進程、備份情況(起止時間、是否成功、出錯告警);
監控記錄磁盤陣列、磁帶庫等存儲硬件故障提示和告警,并及時解決故障問題;
對存儲的性能(如高速緩存、光纖通道等)進行監控。
5.5數據庫系統運維服務
提供的數據庫運行維護服務是包括主動數據庫性能管理,數據庫的主動性能管理對系統運維非常重要。通過主動式性能管理可了解數據庫的日常運行狀態,識別數據庫的性能問題發生在什么地方,有針對性地進行性能優化。同時,密切注意數據庫系統的變化,主動地預防可能發生的問題。
進行監控管理的內容包括:
數據庫基本信息:文件系統、碎片、死鎖、CPU占用率較大或時間較長的SQL語句。
表空間使用信息監測;
數據庫文件I/0讀寫情況;
Session連接數量監控;
數據庫監聽運行狀態監測;
查看每日數據備份、數據同步是否正常;
報警日志監測;
對表和索引進行Analyze,檢查表空間碎片;
檢測數據庫后臺進程;
數據庫對象的空間擴展情況監測;
5.6中間件運維服務
中間件管理是指對BEA Weblogic、tomcat、MQ等中間件的日常維護管理和監控工作,提高對中間件平臺事件的分析解決能力,確保中間件平臺持續穩定運行。中間件監控指標包括配置信息管理、故障監控、性能監控。
執行線程:監控中間件配置執行線程的空閑數量。
JVM內存:JVM內存曲線正常,能夠及時的進行內存空間回收。
JDBC連接池:連接池的初始容量和最大容量應該設置為相等,并且至少等于執行線程的數量,以避免在運行過程中創建數據庫連接所帶來的性能消耗。
檢查中間件日志文件是否有異常報錯
如果有中間件集群配置,需要檢查集群的配置是否正常。
5.7終端、外設運維服務
負責對終端PC、筆記本以及工作站的操作系統、應用軟件和硬件的維護,解決使用人員在應用過程中遇到的問題并進行簡單培訓,完成打印機等其他外設的故障處理工作。
6、應急服務響應措施
運維項目組制定了詳盡的應急處理預案,整個流程嚴謹而有序。但在服務維護過程中,意外情況將難以完全避免。我們將對項目實施的突發風險進行詳細分析,并且針對各類突發事件,設計了相應的預防與解決措施,同時提供了完整的應急處理流程。
6.1應急預案實施基本流程
6.2突發事件應急策略
(1)值班人員平時應做好應急事件的監控工作,對于突發事件應認真分析、準確判定故障發生的數據域,負責跟蹤該事件直至其結束。對于不在運維中心的故障,應在第一時間內通知負責人去現場處理,密切關注事件流程及進展情況,并做好登記工作上報領導。
(2)正常情況下,要求值班人員在10分鐘內進行事件確認。如果屬于一般事件則按照事件流程進行分派處理,否則應迅速啟動《應急預案》,并嚴格按照《應急預案》所規定的步驟快速實施應急處置,及時匯報上級領導,掌握實時處理情況。
(3)在處理過程中,如需其他部門去現場增援處理,應及時向上級領導部門匯報,協調溝通,盡快聯系技術工程師或廠家技術支持趕赴現場援助處理。
7、服務管理制度規范
7.1服務時間
(1) 在5*8 小時工作時間內設置由專人職守的熱線電話,接聽內部的服務請求,并記錄服務臺事件處理結果。
(2) 在非工作時間設置有專人7*24 小時接聽的移動電話熱線,用于解決內部的技術問題以及接聽7*24 小時機房監控人員的機房突發情況匯報。
(3) 服務響應時間:
故障級別 |
響應時間 |
故障解決時間 |
I級:屬于緊急問題;其具體現象為:系統崩潰導致業務停止、數據丟失。 |
10分鐘,30分鐘內提交故障處理方案 |
3小時以內 |
II級:屬于嚴重問題;其具體現象為:出現部分部件失效、系統性能下降但能正常運行,不影響正常業務運作。 |
10分鐘,30分鐘內提交故障處理方案 |
6小時以內 |
III級:屬于較嚴重問題;其具體現象為:出現系統報錯或警告,但業務系統能繼續運行且性能不受影響。 |
10分鐘,30分鐘內提交故障處理方案 |
12小時以內 |
IV級:屬于普通問題;其具體現象為:系統技術功能、安裝或配置咨詢,或其他顯然不影響業務的預約服務。 |
10分鐘,2小時內提交故障處理方案 |
24小時以內 |
(1) 遵守用戶的各項規章制度,嚴格按照用戶相應的規章制度辦事。
(2) 與用戶運行維護體系其他部門和環節協同工作,密切配合,共同開展技術支持工作。
(3) 出現疑難技術、業務問題和重大緊急情況時,及時向負責人報告。
(4) 現場技術支持時要精神飽滿,穿著得體,談吐文明,舉止莊重。接聽電話時要文明禮貌,語言清晰明了,語氣和善。
(5) 遵守保密原則。對被支持單位的網絡、主機、系統軟件、應用軟件等的密碼、核心參數、業務數據等負有保密責任,不得隨意復制和傳播。