當前位置: 主頁 > 新聞 >
 

AWS宣佈 Amazon DevOps Guru

本文作者:AWS       點擊: 2020-12-07 16:20
前言:
機器學習驅動的全新營運服務,提供量身設計的建議以提高應用程式可用性
2020年12月7日--日前在Amazon Web Services(AWS)舉辦的年度盛會——AWS re:Invent上,AWS宣佈完全託管的營運服務Amazon DevOps Guru。利用機器學習協助開發人員透過自動化檢測操作問題和建議補救措施來提高應用程式可用性。Amazon DevOps Guru機器學習技術應用了Amazon.com和AWS多年的營運資料,透過自動收集和分析應用程式指標、日誌、事件和追蹤等資料,識別偏離正常的程式運作模式(例如,運算能力配置不足、資料庫 I/O過度使用、記憶體漏失 memory leak等)。當Amazon DevOps Guru識別出潛在風險如延遲、錯誤率和資源限制增加時導致應用程式異常服務中斷,向開發人員發出問題詳細資訊(涉及的資源、問題時間表和相關事件等),並透過Amazon Simple Notification Service(Amazon SNS)以及Atlassian Opsgenie和PagerDuty等合作夥伴整合服務,協助開發人員快速瞭解問題的潛在影響和可能原因,並提出具體的修復建議。開發人員可以使用Amazon DevOps Guru的建議來減少問題修復時間,無需手動設置或機器學習專業知識即可提高應用程式的可用性和可靠性。 Amazon DevOps Guru不用預付費用或預先承諾,客戶只需為Amazon DevOps Guru分析的資料付費。請至https://aws.amazon.com/devops-guru 即可開始使用Amazon DevOps Guru。

為了擺脫本地部署的限制並向全球擴展業務營運,越來越多的組織開始轉向基於雲端的應用程式部署和微服務架構,這也導致應用程式為滿足客戶需求而變得越來越分散。開發人員需要更多的自動化方式來維護應用程式的可用性,減少花費在檢測、偵錯和解決營運問題上的時間和精力。程式碼錯誤、更改配置、不平衡的容器叢集或CPU、記憶體、磁碟空間等資源耗盡帶來的應用程式當機事件,將導致不好的客戶體驗和收入損失。企業需要花費大量資金和開發人員時間來部署多個監測工具,這些監測工具通常是分開管理,且須針對負載平衡器錯誤,或應用程式請求率下降等常見問題開發和維護自訂警報。對企業來說,透過設定閾值以識別和警告應用程式資源異常狀況,不僅很難設置準確的閾值外,也涉及諸多手動操作,且需隨著應用程式使用情況的變化而不斷更新(如在節慶購物季時突增大量請求)。如果閾值設定太高,開發人員在營運效能已經嚴重受損前將無法收到警報。當閾值設置得太低時,開發人員則可能得到過多誤報而最終忽略警報。即使開發人員對潛在的操作問題已經有所警覺,仍然很難尋找並確認問題根源。開發人員通常很難透過既有工具從圖形和警報中確定問題根源,即使找到根本原因,也往往無法解決。每次問題發生時,故障排除都是冷啟動(cold start),團隊必須花費數小時或數天來確認問題,這種工作既耗時又繁瑣,從而增加了解決操作故障的時間,並延長應用程式的中斷時間。

Amazon DevOps Guru的機器學習模型採用了AWS過去20多年為Amazon.com建構、擴展和維護高可用應用程式的營運專業知識。這使Amazon DevOps Guru能夠自動檢測營運故障(如警報漏失或配置錯誤、資源耗盡的早期警告,可能導致停機的配置更改等),提供有關資源和相關事件的背景,並建議補救措施,而無需開發人員具備任何機器學習經驗。開發人員只需在Amazon DevOps Guru控制台簡單操作,即可自動提取和分析所有應用程式的歷史資源和延遲、錯誤率、請求率等基礎架構指標,以建立操作基準線。Amazon DevOps Guru就可透過預先訓練的機器學習模型識別與既定基準線的偏差。當Amazon DevOps Guru分析系統和應用程式資料自動檢測異常時,能將這些資料產生營運洞察包括異常指標、隨著時間的推移對應用程式列為視覺化、以及相關補救措施的建議。 Amazon DevOps Guru還將相關的應用程式和基礎架構指標做關聯(Web應用程式延遲峰值、磁碟空間用盡、錯誤的程式碼部署、記憶體漏失等),以減少無效警報並幫助用戶關注高嚴重性問題。客戶可以透過查看更改配置的歷史記錄、部署事件以及系統和使用者活動,在Amazon DevOps Guru控制台中產生需要優先注意的潛在操作問題事件列表。為了協助客戶快速解決問題,Amazon DevOps Guru提供智慧的補救建議,並與AWS Systems Manager整合執行手冊(runbook)和協作工具,使客戶能夠更有效地維護應用程式並管理其部署的基礎架構。Amazon DevOps Guru與Amazon CodeGuru(機器學習支援的開發人員工具,可提供智慧建議以提高程式碼品質並識別應用程式中最昂貴的程式碼行)一起,使客戶可以透過自動化的機器學習針對其維運資料,幫助開發人員輕鬆提高應用程式的可用性和可靠性。

負責亞馬遜機器學習的AWS副總裁Swami Sivasubramanian表示:「客戶希望AWS運用專業知識持續提供新服務以增進應用程式可用性,同時學習Amazon.com的多年營運經驗。藉助Amazon DevOps Guru,我們透過AWS過往的經驗建立專門的機器學習模型,協助客戶檢測、排除故障並預防操作問題,在出現問題時提供智慧化建議。使客戶立即受益於營運Amazon.com中學到的最佳操作實踐,節省配置和管理多個監測系統上所花費的時間和精力。」

客戶只需在AWS管理主控台中簡單操作,就可以在數分鐘內開始使用Amazon DevOps Guru分析帳戶和應用程式活動,獲得營運洞察。Amazon DevOps Guru透過匯整AWS CloudTrail、Amazon CloudWatch、AWS Config、AWS CloudFormation、AWS X-Ray等多個來源的相關資料,讓客戶透過一個控制台視覺化其營運資料,減少在多種工具之間切換的需求。客戶還可以在Amazon DevOps Guru控制台中查看營運洞察獲得相關的營運事件和資料,並透過Amazon Simple Notification Service(Amazon SNS)接收警報。此外,Amazon DevOps Guru透過AWS軟體開發套件(AWS SDK)支援API 端點(endpoints),使合作夥伴和客戶可以輕鬆將Amazon DevOps Guru整合到其現有解決方案中,以針對高嚴重性問題提交故障單、分級並自動通知工程師。 PagerDuty和Atlassian已將Amazon DevOps Guru整合到其營運監控和事件管理平臺中,使用其解決方案的客戶現在可以從Amazon DevOps Guru提供的營運洞察中受益。 Amazon DevOps Guru現已在美國東部(北維吉尼亞)區域、美國東部(俄亥俄)區域、美國西部(俄勒岡)區域、亞太(新加坡)區域和歐洲(愛爾蘭)區域進行預覽,並將在未來幾個月中在其它地區推出。

超過170,000個企業藉由Atlassian產品來簡化團隊合作、組織、討論和完成工作。 Opsgenie產品負責人Emel Dogrusoz表示:「Atlassian很榮幸能與AWS就Amazon DevOps Guru推出達成合作,幫助更多開發團隊部署程式碼和營運服務。透過與Opsgenie和Jira Service Management整合,Amazon DevOps Guru可以在預測到潛在問題或確定事件發生時立即通知相關團隊。Amazon DevOps Guru提供了新的洞察力,而Atlassian確保了最快的回應速度。」

PagerDuty, Inc.是數位營運管理的領導者。PagerDuty產品副總裁Jonathan Rende表示:「PagerDuty致力於推動DevOps文化,透過自動化解決方案來完整緊急事件應變的生命週期管理。我們很高興能夠透過與Amazon DevOps Guru的整合來繼續深化對DevOps的承諾。藉助亞馬遜數十年來的卓越營運經驗和Amazon DevOps Guru的機器學習功能,PagerDuty為我們的共同客戶提供了更多的即時訊號到回應功能。透過PagerDuty提取的Amazon DevOps Guru的Amazon SNS,AWS客戶可以在營運事件影響使用者服務中斷之前對其採取即時行動。」

路透社是全球最受信賴的資訊提供商,幫助專業人士做出可靠的決定並更好的業務經營。路透社基礎設施託管業務主管Steve Thoennes表示:「客戶體驗對我們相當重要。在試圖防止和減輕影響客戶的事件時,處理可用性、性能和變更請求的多種警報是一個挑戰。我們很高興能夠使用Amazon DevOps Guru利用其機器學習的洞察快速解決問題,並避免影響客戶的事件提供清晰路徑。這一服務與PagerDuty的整合則可以幫助我們將Amazon DevOps Guru提供的解決問題建議及時有效地交付給需要的團隊。」

SmugMug是一個付費的圖片共用和託管服務及線上影片平台,使用者可以在該平台上傳照片和影片。該公司為業餘及專業攝影師促進數位化和印刷作品的銷售。 SmugMug營運總監Andrew Shieh說:「我的團隊一直在尋找讓手動工作自動化的方法。我們希望能夠透過Amazon DevOps Guru實現這一目標,讓AIOps接管我們大部分的任務,簡化日常營運,從而專注於IT創新。現在不僅滿足了業務需求,而且更是超出業務預期,因為我們有更多時間專注於最重要的事情——為我們的公司和客戶創造價值。」

NextRoll透過幫助市場和行銷平台建構和強化其行銷解決方案提高收益。NextRoll技術長Valentino Volonghi表示:「我們執行著數千個Amazon Elastic Compute Cloud(Amazon EC2) 執行個體,一直在尋找能夠減少團隊用於解決營運問題時間的方法。很高興能夠使用Amazon DevOps Guru並利用其基於機器學習的洞察來協助我們識別、關聯和解決營運問題。這將幫助我的團隊節省時間並減少我們的平均恢復時間。」

關於Amazon Web Services
14年以來,Amazon Web Services一直是世界上服務豐富、應用廣泛的雲端服務平台。AWS為客戶提供超過175種功能全面的雲端服務,包括運算、儲存、資料庫、聯網、分析、機器人、機器學習與人工智慧、物聯網、行動、安全、混合雲、虛擬和擴增實境(VR 和AR)、媒體,以及應用開發、部署和管理等方面,遍及24個地理區域內的 77個可用區域(Availability Zones),並已公佈計畫在印度、印尼、日本、西班牙和瑞士建立5個AWS地理區域、15個可用區域。全球超過百萬客戶信任AWS,包含發展迅速的新創公司、大型企業和政府機構。AWS協助客戶強化自身基礎設施,提高營運上的彈性與應變能力,同時降低成本。欲瞭解更多AWS的相關資訊,請至:aws.amazon.com

關於亞馬遜
亞馬遜一向秉持四大原則:顧客至上而非專注於競爭對手;勇於創新;致力追求卓越營運;並且高瞻遠矚。亞馬遜開創了許多創新產品及服務,包括客戶評價、一鍵下單、個人化推薦、Prime會員服務、亞馬遜物流 (Fulfilment by Amazon)、AWS、Kindle直接出版 (Kindle Direct Publishing)、Kindle、Fire tablets、Fire TV、Amazon Echo及Alexa。欲瞭解更多資訊,請瀏覽: www.amazon.com/about 及追蹤推特 @AmazonNews
 

電子郵件:look@compotechasia.com

聯繫電話:886-2-27201789       分機請撥:11