Phân tích lưu lượng được mã hóa mà không cần giải mã

Một hệ thống phân tích lưu lượng truy cập mà không cần giải mã nó. Phương pháp này được gọi đơn giản là “học máy”. Hóa ra là nếu một lượng lớn lưu lượng truy cập khác nhau được đưa vào đầu vào của một bộ phân loại đặc biệt, thì hệ thống có thể phát hiện hành động của mã độc bên trong lưu lượng được mã hóa với xác suất rất cao.

Phân tích lưu lượng được mã hóa mà không cần giải mã

Các mối đe dọa trực tuyến đã thay đổi và trở nên thông minh hơn. Gần đây, khái niệm tấn công và phòng thủ đã thay đổi. Số lượng sự kiện trên mạng đã tăng lên đáng kể. Các cuộc tấn công ngày càng tinh vi hơn và tin tặc có phạm vi tiếp cận rộng hơn.

Theo thống kê của Cisco, trong năm qua, những kẻ tấn công đã tăng gấp ba lần số lượng phần mềm độc hại mà chúng sử dụng cho các hoạt động của mình, hay nói đúng hơn là mã hóa để ẩn chúng. Về mặt lý thuyết, người ta biết rằng thuật toán mã hóa “đúng” không thể bị phá vỡ. Để hiểu những gì ẩn bên trong lưu lượng được mã hóa, cần phải giải mã nó khi biết khóa hoặc cố gắng giải mã nó bằng nhiều thủ thuật khác nhau hoặc hack trực tiếp hoặc sử dụng một số loại lỗ hổng trong giao thức mật mã.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Bức tranh về các mối đe dọa mạng của thời đại chúng ta

Máy học

Biết công nghệ trực tiếp! Trước khi nói về cách thức hoạt động của công nghệ giải mã dựa trên máy học, cần phải hiểu cách thức hoạt động của công nghệ mạng thần kinh.

Học máy là một tiểu mục rộng lớn của trí tuệ nhân tạo, nghiên cứu các phương pháp xây dựng các thuật toán có thể học. Khoa học này nhằm mục đích tạo ra các mô hình toán học để “huấn luyện” máy tính. Mục đích của việc học là để dự đoán điều gì đó. Theo hiểu biết của con người, chúng tôi gọi quá trình này là từ "khôn ngoan". Trí tuệ thể hiện ở những người đã sống khá lâu (một đứa trẻ 2 tuổi không thể khôn ngoan được). Khi tìm đến các đồng chí cấp cao để xin lời khuyên, chúng tôi cung cấp cho họ một số thông tin về sự kiện (dữ liệu đầu vào) và nhờ họ giúp đỡ. Ngược lại, họ ghi nhớ tất cả các tình huống trong cuộc sống có liên quan đến vấn đề của bạn (cơ sở kiến ​​thức) và dựa trên kiến ​​​​thức (dữ liệu) này, đưa ra cho chúng ta một loại dự đoán (lời khuyên). Loại lời khuyên này bắt đầu được gọi là dự đoán vì người đưa ra lời khuyên không biết chắc điều gì sẽ xảy ra mà chỉ giả định. Kinh nghiệm sống cho thấy một người có thể đúng hoặc có thể sai.

Bạn không nên so sánh mạng thần kinh với thuật toán phân nhánh (nếu-khác). Đây là những điều khác nhau và có những khác biệt chính. Thuật toán phân nhánh có “sự hiểu biết” rõ ràng về những việc cần làm. Tôi sẽ chứng minh bằng các ví dụ.

Nhiệm vụ. Xác định quãng đường phanh của ô tô dựa trên nhãn hiệu và năm sản xuất.

Một ví dụ về thuật toán phân nhánh. Nếu xe là nhãn hiệu 1 và được ra mắt vào năm 2012 thì khoảng cách phanh của nó là 10 mét, ngược lại, nếu xe là nhãn hiệu 2 và được ra mắt vào năm 2011, v.v.

Một ví dụ về mạng lưới thần kinh. Chúng tôi thu thập dữ liệu về khoảng cách phanh ô tô trong 20 năm qua. Dựa theo hãng sản xuất và năm, chúng tôi lập một bảng có dạng “năm sản xuất – quãng đường phanh”. Chúng tôi đưa bảng này vào mạng lưới thần kinh và bắt đầu dạy nó. Quá trình đào tạo được thực hiện như sau: chúng tôi cung cấp dữ liệu cho mạng lưới thần kinh nhưng không có đường hãm. Tế bào thần kinh cố gắng dự đoán khoảng cách phanh sẽ dựa trên bảng được tải vào nó. Dự đoán điều gì đó và hỏi người dùng “Tôi có đúng không?” Trước câu hỏi, cô tạo cột thứ tư, cột đoán. Nếu đúng, cô ấy viết 1 vào cột thứ tư, nếu sai, cô ấy viết 0. Mạng lưới thần kinh sẽ chuyển sang sự kiện tiếp theo (ngay cả khi nó mắc lỗi). Đây là cách mạng học và khi quá trình đào tạo hoàn tất (đã đạt được một tiêu chí hội tụ nhất định), chúng tôi gửi dữ liệu về chiếc xe mà chúng tôi quan tâm và cuối cùng nhận được câu trả lời.

Để loại bỏ câu hỏi về tiêu chí hội tụ, tôi sẽ giải thích rằng đây là một công thức thống kê có nguồn gốc toán học. Một ví dụ nổi bật về hai công thức hội tụ khác nhau. Đỏ – hội tụ nhị phân, xanh – hội tụ bình thường.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Phân phối xác suất nhị thức và bình thường

Để làm rõ hơn hãy đặt câu hỏi “Xác suất gặp được khủng long là bao nhiêu?” Có 2 câu trả lời có thể có ở đây. Tùy chọn 1 – rất nhỏ (đồ thị màu xanh lam). Tùy chọn 2 – có họp hoặc không (biểu đồ màu đỏ).

Tất nhiên, máy tính không phải là con người và nó học theo cách khác. Có 2 hình thức huấn luyện ngựa sắt: học tập theo từng trường hợp и học suy diễn.

Dạy học tiền lệ là phương pháp dạy học sử dụng các định luật toán học. Các nhà toán học thu thập các bảng thống kê, rút ​​ra kết luận và tải kết quả vào mạng lưới thần kinh - một công thức tính toán.

Học suy diễn - học tập diễn ra hoàn toàn trong tế bào thần kinh (từ thu thập dữ liệu đến phân tích dữ liệu). Ở đây một bảng được hình thành không có công thức, nhưng có số liệu thống kê.

Một cái nhìn tổng quát về công nghệ sẽ cần thêm vài chục bài viết nữa. Hiện tại, điều này sẽ đủ cho sự hiểu biết chung của chúng tôi.

Khả biến thần kinh

Trong sinh học có một khái niệm như vậy - tính dẻo dai của thần kinh. Tính dẻo thần kinh là khả năng của các tế bào thần kinh (tế bào não) hoạt động “tùy theo tình huống”. Ví dụ, một người mất thị lực sẽ nghe thấy âm thanh, ngửi và cảm nhận đồ vật tốt hơn. Điều này xảy ra do phần não (một phần tế bào thần kinh) chịu trách nhiệm về thị giác sẽ phân phối lại công việc của nó cho các chức năng khác.

Một ví dụ nổi bật về tính dẻo dai của thần kinh trong cuộc sống là chiếc kẹo mút BrainPort.

Năm 2009, Đại học Wisconsin tại Madison đã công bố phát hành một thiết bị mới phát triển ý tưởng về “hiển thị ngôn ngữ” - nó được gọi là BrainPort. BrainPort hoạt động theo thuật toán sau: tín hiệu video được gửi từ camera đến bộ xử lý, bộ xử lý này sẽ điều khiển độ thu phóng, độ sáng và các thông số hình ảnh khác. Nó cũng chuyển đổi tín hiệu số thành xung điện, về cơ bản đảm nhiệm các chức năng của võng mạc.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Kẹo mút BrainPort có kính và máy ảnh

Phân tích lưu lượng được mã hóa mà không cần giải mã
BrainPort tại nơi làm việc

Tương tự với máy tính. Nếu mạng lưới thần kinh cảm nhận được sự thay đổi trong quá trình, nó sẽ thích ứng với sự thay đổi đó. Đây là ưu điểm chính của mạng nơ-ron so với các thuật toán khác – tính tự chủ. Một loại nhân loại.

Phân tích lưu lượng truy cập được mã hóa

Phân tích lưu lượng truy cập được mã hóa là một phần của hệ thống Stealthwatch. Stealthwatch là giải pháp giám sát và phân tích bảo mật của Cisco nhằm tận dụng dữ liệu đo từ xa của doanh nghiệp từ cơ sở hạ tầng mạng hiện có.

Stealthwatch Enterprise dựa trên các công cụ Flow Rate License, Flow Collector, Management Console và Flow Sensor.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Giao diện giám sát lén lút của Cisco

Vấn đề về mã hóa trở nên rất nghiêm trọng do có nhiều lưu lượng truy cập bắt đầu được mã hóa hơn. Trước đây, chỉ có mã được mã hóa (hầu hết), nhưng bây giờ tất cả lưu lượng truy cập đều được mã hóa và việc phân tách dữ liệu “sạch” khỏi virus đã trở nên khó khăn hơn rất nhiều. Một ví dụ nổi bật là WannaCry, sử dụng Tor để che giấu sự hiện diện trực tuyến của mình.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Hình dung sự tăng trưởng về mã hóa lưu lượng truy cập trên mạng

Phân tích lưu lượng được mã hóa mà không cần giải mã
Mã hóa trong kinh tế vĩ mô

Hệ thống Phân tích lưu lượng truy cập được mã hóa (ETA) chính xác là cần thiết để làm việc với lưu lượng được mã hóa mà không cần giải mã nó. Những kẻ tấn công rất thông minh và sử dụng các thuật toán mã hóa chống tiền điện tử, và việc phá vỡ chúng không chỉ là một vấn đề mà còn cực kỳ tốn kém đối với các tổ chức.

Hệ thống hoạt động như sau. Một số lưu lượng truy cập đến công ty. Nó rơi vào TLS (bảo mật lớp vận chuyển). Giả sử lưu lượng truy cập được mã hóa. Chúng tôi đang cố gắng trả lời một số câu hỏi về loại kết nối đã được tạo ra.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Cách hoạt động của hệ thống Phân tích lưu lượng truy cập được mã hóa (ETA)

Để trả lời những câu hỏi này, chúng tôi sử dụng máy học trong hệ thống này. Nghiên cứu của Cisco được thực hiện và dựa trên những nghiên cứu này, một bảng được tạo từ 2 kết quả - lưu lượng truy cập độc hại và lưu lượng truy cập “tốt”. Tất nhiên, chúng tôi không biết chắc chắn loại lưu lượng truy cập nào đã trực tiếp vào hệ thống tại thời điểm hiện tại, nhưng chúng tôi có thể theo dõi lịch sử lưu lượng truy cập cả bên trong và bên ngoài công ty bằng cách sử dụng dữ liệu từ khắp thế giới. Vào cuối giai đoạn này, chúng ta nhận được một bảng lớn chứa dữ liệu.

Dựa trên kết quả nghiên cứu, các đặc điểm đặc trưng được xác định - một số quy tắc nhất định có thể được viết ra dưới dạng toán học. Các quy tắc này sẽ khác nhau rất nhiều tùy thuộc vào các tiêu chí khác nhau - kích thước của tệp được truyền, loại kết nối, quốc gia nơi lưu lượng truy cập này đến, v.v. Kết quả của công việc là chiếc bàn khổng lồ đã biến thành một đống công thức. Có ít người trong số họ hơn, nhưng điều này là không đủ để làm việc thoải mái.

Tiếp theo, áp dụng công nghệ machine learning - công thức hội tụ và dựa trên kết quả hội tụ chúng ta có được trigger - switch, khi dữ liệu xuất ra chúng ta sẽ có một switch (cờ) ở vị trí nâng lên hoặc hạ xuống.

Giai đoạn kết quả là có được một bộ trình kích hoạt bao phủ 99% lưu lượng truy cập.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Các bước kiểm tra giao thông trong ETA

Kết quả của công việc là một vấn đề khác được giải quyết - một cuộc tấn công từ bên trong. Những người ở giữa không còn cần phải lọc lưu lượng truy cập theo cách thủ công nữa (tôi đang chết chìm vào thời điểm này). Thứ nhất, bạn không cần phải tốn nhiều tiền cho một quản trị viên hệ thống có năng lực nữa (tôi tiếp tục tự dìm mình). Thứ hai, không có nguy cơ bị hack từ bên trong (ít nhất là một phần).

Phân tích lưu lượng được mã hóa mà không cần giải mã
Khái niệm Man-in-the-Middle đã lỗi thời

Bây giờ, hãy tìm hiểu xem hệ thống này dựa trên cái gì.

Hệ thống hoạt động trên 4 giao thức truyền thông: TCP/IP – giao thức truyền dữ liệu Internet, DNS – máy chủ tên miền, TLS – giao thức bảo mật lớp vận chuyển, SPLT (SpaceWire Physical Layer Test) – trình kiểm tra lớp giao tiếp vật lý.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Các giao thức làm việc với ETA

So sánh được thực hiện bằng cách so sánh dữ liệu. Sử dụng giao thức TCP/IP, danh tiếng của các trang web được kiểm tra (lịch sử truy cập, mục đích tạo trang web, v.v.), nhờ giao thức DNS, chúng tôi có thể loại bỏ các địa chỉ trang web “xấu”. Giao thức TLS hoạt động với dấu vân tay của trang web và xác minh trang web đó dựa vào nhóm ứng phó khẩn cấp máy tính (chứng chỉ). Bước cuối cùng trong việc kiểm tra kết nối là kiểm tra ở cấp độ vật lý. Các chi tiết của giai đoạn này không được chỉ định, nhưng điểm như sau: kiểm tra các đường cong hình sin và cosin của đường cong truyền dữ liệu trên các cài đặt dao động, tức là. Nhờ cấu trúc của yêu cầu ở lớp vật lý, chúng tôi xác định được mục đích của kết nối.

Nhờ hoạt động của hệ thống, chúng tôi có thể lấy dữ liệu từ lưu lượng được mã hóa. Bằng cách kiểm tra các gói, chúng ta có thể đọc càng nhiều thông tin càng tốt từ các trường không được mã hóa trong chính gói đó. Bằng cách kiểm tra gói ở lớp vật lý, chúng tôi tìm ra các đặc tính của gói (một phần hoặc toàn bộ). Ngoài ra, đừng quên danh tiếng của các trang web. Nếu yêu cầu đến từ nguồn .onion nào đó, bạn không nên tin tưởng vào nó. Để làm việc với loại dữ liệu này dễ dàng hơn, bản đồ rủi ro đã được tạo.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Kết quả hoạt động của ETA

Và mọi thứ có vẻ ổn, nhưng hãy nói về việc triển khai mạng.

Triển khai ETA vật lý

Ở đây nảy sinh một số sắc thái và sự tinh tế. Đầu tiên, khi tạo ra loại
mạng có phần mềm cấp cao, việc thu thập dữ liệu là cần thiết. Thu thập dữ liệu hoàn toàn thủ công
hoang dã, nhưng việc triển khai một hệ thống phản hồi đã thú vị hơn. Thứ hai, dữ liệu
sẽ có rất nhiều, điều đó có nghĩa là các cảm biến mạng được cài đặt phải hoạt động
không chỉ tự chủ mà còn ở chế độ tinh chỉnh, điều này gây ra một số khó khăn.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Hệ thống cảm biến và giám sát

Lắp đặt cảm biến là một chuyện, nhưng thiết lập nó lại là một nhiệm vụ hoàn toàn khác. Để định cấu hình các cảm biến, có một tổ hợp hoạt động theo cấu trúc liên kết sau - ISR = Bộ định tuyến dịch vụ tích hợp của Cisco; ASR = Bộ định tuyến dịch vụ tổng hợp của Cisco; CSR = Bộ định tuyến dịch vụ đám mây của Cisco; WLC = Bộ điều khiển mạng LAN không dây của Cisco; IE = Bộ chuyển mạch Ethernet công nghiệp của Cisco; ASA = Thiết bị bảo mật thích ứng của Cisco; FTD = Giải pháp phòng chống mối đe dọa hỏa lực của Cisco; WSA = Thiết bị bảo mật web; ISE = Công cụ dịch vụ nhận dạng

Phân tích lưu lượng được mã hóa mà không cần giải mã
Giám sát toàn diện có tính đến mọi dữ liệu đo từ xa

Quản trị viên mạng bắt đầu cảm thấy rối loạn nhịp tim từ số lượng từ “Cisco” trong đoạn trước. Cái giá phải trả cho phép màu này không hề nhỏ, nhưng đó không phải là điều chúng ta đang nói đến ngày hôm nay…

Hành vi của hacker sẽ được mô hình hóa như sau. Stealthwatch giám sát cẩn thận hoạt động của mọi thiết bị trên mạng và có thể tạo ra một mẫu hành vi bình thường. Ngoài ra, giải pháp này còn cung cấp cái nhìn sâu sắc về hành vi không phù hợp đã biết. Giải pháp này sử dụng khoảng 100 thuật toán phân tích hoặc chẩn đoán khác nhau nhằm giải quyết các loại hành vi lưu lượng truy cập khác nhau như quét, khung cảnh báo máy chủ, đăng nhập bạo lực, thu thập dữ liệu đáng ngờ, nghi ngờ rò rỉ dữ liệu, v.v. Các sự kiện bảo mật được liệt kê thuộc danh mục cảnh báo logic cấp cao. Một số sự kiện bảo mật cũng có thể tự kích hoạt báo động. Do đó, hệ thống có thể liên kết nhiều sự cố bất thường riêng lẻ và đặt chúng lại với nhau để xác định loại tấn công có thể xảy ra, cũng như liên kết nó với một thiết bị và người dùng cụ thể (Hình 2). Trong tương lai, sự cố có thể được nghiên cứu theo thời gian và tính đến dữ liệu đo từ xa liên quan. Điều này tạo thành thông tin theo ngữ cảnh tốt nhất. Các bác sĩ khám bệnh cho bệnh nhân để hiểu bệnh gì không nên nhìn vào các triệu chứng một cách riêng biệt. Họ nhìn vào bức tranh toàn cảnh để đưa ra chẩn đoán. Tương tự như vậy, Stealthwatch nắm bắt mọi hoạt động bất thường trên mạng và kiểm tra nó một cách tổng thể để gửi cảnh báo theo ngữ cảnh, từ đó giúp các chuyên gia bảo mật ưu tiên rủi ro.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Phát hiện bất thường bằng mô hình hành vi

Việc triển khai vật lý của mạng trông như thế này:

Phân tích lưu lượng được mã hóa mà không cần giải mã
Tùy chọn triển khai mạng chi nhánh (đơn giản hóa)

Phân tích lưu lượng được mã hóa mà không cần giải mã
Tùy chọn triển khai mạng chi nhánh

Mạng đã được triển khai nhưng câu hỏi về nơ-ron vẫn còn bỏ ngỏ. Họ đã tổ chức một mạng truyền dữ liệu, lắp đặt các cảm biến ở các ngưỡng cửa và đưa ra hệ thống thu thập thông tin, nhưng tế bào thần kinh không tham gia vào vấn đề này. Tạm biệt.

Mạng lưới thần kinh đa lớp

Hệ thống phân tích hành vi của người dùng và thiết bị để phát hiện sự lây nhiễm độc hại, hoạt động liên lạc với máy chủ chỉ huy và kiểm soát, rò rỉ dữ liệu và các ứng dụng không mong muốn tiềm ẩn đang chạy trong cơ sở hạ tầng của tổ chức. Có nhiều lớp xử lý dữ liệu trong đó sự kết hợp giữa trí tuệ nhân tạo, máy học và kỹ thuật thống kê toán học giúp mạng tự tìm hiểu hoạt động bình thường để có thể phát hiện hoạt động độc hại.

Đường dẫn phân tích bảo mật mạng, thu thập dữ liệu đo từ xa từ tất cả các phần của mạng mở rộng, bao gồm cả lưu lượng được mã hóa, là một tính năng độc đáo của Stealthwatch. Nó dần dần phát triển sự hiểu biết về thế nào là “bất thường”, sau đó phân loại các yếu tố riêng lẻ thực tế của “hoạt động đe dọa” và cuối cùng đưa ra phán quyết cuối cùng về việc liệu thiết bị hoặc người dùng có thực sự bị xâm phạm hay không. Khả năng ghép các mảnh nhỏ lại với nhau tạo thành bằng chứng để đưa ra quyết định cuối cùng về việc liệu một tài sản có bị xâm phạm hay không thông qua phân tích và tương quan rất cẩn thận.

Khả năng này rất quan trọng vì một doanh nghiệp thông thường có thể nhận được số lượng lớn cảnh báo mỗi ngày và không thể điều tra từng cảnh báo một vì các chuyên gia bảo mật có nguồn lực hạn chế. Mô-đun máy học xử lý lượng thông tin khổng lồ trong thời gian gần như thực tế để xác định các sự cố nghiêm trọng với mức độ tin cậy cao và cũng có thể cung cấp các hướng hành động rõ ràng để giải quyết nhanh chóng.

Chúng ta hãy xem xét kỹ hơn nhiều kỹ thuật học máy được Stealthwatch sử dụng. Khi một sự cố được gửi tới công cụ học máy của Stealthwatch, nó sẽ đi qua một kênh phân tích bảo mật sử dụng kết hợp các kỹ thuật học máy được giám sát và không giám sát.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Khả năng học máy đa cấp

Cấp độ 1. Phát hiện bất thường và mô hình tin cậy

Ở cấp độ này, 99% lưu lượng truy cập bị loại bỏ bằng cách sử dụng các công cụ phát hiện bất thường thống kê. Những cảm biến này cùng nhau tạo thành các mô hình phức tạp về điều gì là bình thường và điều gì trái lại là bất thường. Tuy nhiên, sự bất thường không hẳn là có hại. Rất nhiều điều đang xảy ra trên mạng của bạn không liên quan gì đến mối đe dọa—điều đó thật kỳ lạ. Điều quan trọng là phải phân loại các quy trình như vậy mà không quan tâm đến hành vi đe dọa. Vì lý do này, kết quả của các máy dò như vậy được phân tích sâu hơn để nắm bắt hành vi kỳ lạ có thể giải thích và tin cậy. Cuối cùng, chỉ một phần nhỏ các luồng và yêu cầu quan trọng nhất được chuyển đến lớp 2 và 3. Nếu không sử dụng các kỹ thuật học máy như vậy, chi phí vận hành để tách tín hiệu khỏi nhiễu sẽ quá cao.

Phát hiện bất thường. Bước đầu tiên trong việc phát hiện sự bất thường sử dụng các kỹ thuật máy học thống kê để tách lưu lượng truy cập thông thường về mặt thống kê khỏi lưu lượng truy cập bất thường. Hơn 70 trình phát hiện riêng lẻ xử lý dữ liệu đo từ xa Stealthwatch thu thập về lưu lượng truy cập đi qua phạm vi mạng của bạn, tách lưu lượng truy cập Hệ thống tên miền (DNS) nội bộ khỏi dữ liệu máy chủ proxy, nếu có. Mỗi yêu cầu được xử lý bởi hơn 70 máy dò, mỗi máy dò sử dụng thuật toán thống kê riêng để hình thành đánh giá về các điểm bất thường được phát hiện. Những điểm số này được kết hợp và nhiều phương pháp thống kê được sử dụng để tạo ra một điểm số duy nhất cho mỗi truy vấn riêng lẻ. Điểm tổng hợp này sau đó được sử dụng để phân tách lưu lượng truy cập bình thường và bất thường.

Làm mẫu niềm tin. Tiếp theo, các yêu cầu tương tự được nhóm lại và điểm bất thường tổng hợp cho các nhóm đó được xác định là mức trung bình dài hạn. Theo thời gian, nhiều truy vấn được phân tích hơn để xác định mức trung bình dài hạn, từ đó giảm kết quả dương tính giả và âm tính giả. Các kết quả của mô hình tin cậy được sử dụng để chọn một tập hợp con lưu lượng truy cập có điểm bất thường vượt quá một số ngưỡng được xác định động để chuyển sang cấp xử lý tiếp theo.

Cấp độ 2. Phân loại sự kiện và mô hình hóa đối tượng

Ở cấp độ này, kết quả thu được ở các giai đoạn trước được phân loại và gán cho các sự kiện độc hại cụ thể. Các sự kiện được phân loại dựa trên giá trị do bộ phân loại học máy chỉ định để đảm bảo tỷ lệ chính xác nhất quán trên 90%. Trong số đó:

  • mô hình tuyến tính dựa trên bổ đề Neyman-Pearson (định luật phân phối chuẩn từ biểu đồ ở đầu bài)
  • hỗ trợ máy vectơ sử dụng phương pháp học đa biến
  • mạng lưới thần kinh và thuật toán rừng ngẫu nhiên.

Sau đó, các sự kiện bảo mật riêng biệt này sẽ được liên kết với một điểm cuối duy nhất theo thời gian. Ở giai đoạn này, mô tả mối đe dọa được hình thành, dựa trên đó tạo ra một bức tranh hoàn chỉnh về cách kẻ tấn công có liên quan đạt được kết quả nhất định.

Phân loại sự kiện. Tập hợp con bất thường về mặt thống kê từ cấp độ trước đó được phân bổ thành 100 loại trở lên bằng cách sử dụng các bộ phân loại. Hầu hết các phân loại đều dựa trên hành vi cá nhân, mối quan hệ nhóm hoặc hành vi trên quy mô toàn cầu hoặc địa phương, trong khi những phân loại khác có thể khá cụ thể. Ví dụ: trình phân loại có thể chỉ ra lưu lượng truy cập C&C, tiện ích mở rộng đáng ngờ hoặc bản cập nhật phần mềm trái phép. Dựa trên kết quả của giai đoạn này, một tập hợp các sự kiện bất thường trong hệ thống an ninh được hình thành, được phân loại thành các loại nhất định.

Mô hình hóa đối tượng Nếu số lượng bằng chứng ủng hộ giả thuyết rằng một vật thể cụ thể có hại vượt quá ngưỡng vật chất thì mối đe dọa sẽ được xác định. Các sự kiện liên quan ảnh hưởng đến việc xác định mối đe dọa có liên quan đến mối đe dọa đó và trở thành một phần của mô hình dài hạn riêng biệt của đối tượng. Khi bằng chứng tích lũy theo thời gian, hệ thống sẽ xác định các mối đe dọa mới khi đạt đến ngưỡng trọng yếu. Giá trị ngưỡng này rất linh hoạt và được điều chỉnh thông minh dựa trên mức độ rủi ro đe dọa và các yếu tố khác. Sau đó, mối đe dọa xuất hiện trên bảng thông tin của giao diện web và được chuyển sang cấp độ tiếp theo.

Cấp 3. Mô hình hóa mối quan hệ

Mục đích của mô hình hóa mối quan hệ là tổng hợp các kết quả thu được ở các cấp độ trước đó từ góc độ toàn cầu, có tính đến không chỉ bối cảnh địa phương mà còn toàn cầu của sự cố liên quan. Ở giai đoạn này, bạn có thể xác định có bao nhiêu tổ chức đã gặp phải một cuộc tấn công như vậy để hiểu liệu nó nhắm mục tiêu cụ thể vào bạn hay là một phần của chiến dịch toàn cầu và bạn vừa bị bắt.

Sự cố được xác nhận hoặc phát hiện. Một sự cố đã được xác minh có độ tin cậy từ 99 đến 100% vì các kỹ thuật và công cụ liên quan trước đây đã được quan sát thấy đang hoạt động ở quy mô lớn hơn (toàn cầu). Các sự cố được phát hiện là duy nhất đối với bạn và là một phần của chiến dịch có mục tiêu cao. Những phát hiện trước đây được chia sẻ với một quy trình hành động đã biết, giúp bạn tiết kiệm thời gian và nguồn lực để ứng phó. Chúng đi kèm với các công cụ điều tra mà bạn cần để hiểu ai đã tấn công bạn và mức độ chiến dịch nhắm mục tiêu vào doanh nghiệp kỹ thuật số của bạn. Như bạn có thể tưởng tượng, số lượng sự cố được xác nhận vượt xa số lượng sự cố được phát hiện vì lý do đơn giản là các sự cố được xác nhận không gây ra nhiều tổn thất cho kẻ tấn công, trong khi các sự cố được phát hiện thì có.
đắt tiền vì chúng phải mới và được tùy chỉnh. Bằng cách tạo ra khả năng xác định các sự cố đã được xác nhận, tính kinh tế của trò chơi cuối cùng đã chuyển sang hướng có lợi cho những người phòng thủ, mang lại cho họ một lợi thế khác biệt.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Đào tạo đa cấp độ hệ thống kết nối thần kinh dựa trên ETA

Bản đồ rủi ro toàn cầu

Bản đồ rủi ro toàn cầu được tạo thông qua phân tích được áp dụng bởi thuật toán học máy cho một trong những bộ dữ liệu lớn nhất thuộc loại này trong ngành. Nó cung cấp số liệu thống kê sâu rộng về hành vi liên quan đến các máy chủ trên Internet, ngay cả khi chúng chưa được biết đến. Những máy chủ như vậy có liên quan đến các cuộc tấn công và có thể liên quan hoặc được sử dụng như một phần của cuộc tấn công trong tương lai. Đây không phải là một “danh sách đen”, mà là một bức tranh toàn cảnh về máy chủ được đề cập từ quan điểm bảo mật. Thông tin theo ngữ cảnh này về hoạt động của các máy chủ này cho phép bộ phát hiện và phân loại máy học của Stealthwatch dự đoán chính xác mức độ rủi ro liên quan đến hoạt động liên lạc với các máy chủ đó.

Bạn có thể xem các thẻ có sẵn đây.

Phân tích lưu lượng được mã hóa mà không cần giải mã
Bản đồ thế giới hiển thị 460 triệu địa chỉ IP

Lúc này mạng sẽ học hỏi và đứng lên bảo vệ mạng của bạn.

Cuối cùng, một loại thuốc chữa bách bệnh đã được tìm thấy?

Thật không may, không. Từ kinh nghiệm làm việc với hệ thống, tôi có thể nói rằng có 2 vấn đề toàn cầu.

Vấn đề 1. Giá cả. Toàn bộ mạng được triển khai trên hệ thống của Cisco. Điều này vừa tốt vừa xấu. Ưu điểm là bạn không cần phải bận tâm và cài đặt hàng loạt plug-in như D-Link, MikroTik, v.v. Nhược điểm là chi phí lớn của hệ thống. Xét tình trạng kinh tế của doanh nghiệp Nga, ở thời điểm hiện tại chỉ có chủ sở hữu giàu có của một công ty hoặc ngân hàng lớn mới có thể có được điều kỳ diệu này.

Vấn đề 2: Đào tạo. Tôi không viết trong bài viết thời gian đào tạo cho mạng lưới thần kinh, không phải vì nó không tồn tại mà vì nó luôn học và chúng ta không thể dự đoán khi nào nó sẽ học. Tất nhiên, có những công cụ thống kê toán học (sử dụng công thức tương tự của tiêu chí hội tụ Pearson), nhưng đây chỉ là một nửa thước đo. Chúng tôi có xác suất lọc lưu lượng truy cập và thậm chí chỉ với điều kiện cuộc tấn công đã được làm chủ và biết trước.

Bất chấp 2 vấn đề này, chúng ta đã có bước nhảy vọt lớn trong việc phát triển an ninh thông tin nói chung và bảo vệ mạng nói riêng. Thực tế này có thể là động lực cho việc nghiên cứu các công nghệ mạng và mạng lưới thần kinh, hiện đang là một hướng đi rất hứa hẹn.

Nguồn: www.habr.com

Thêm một lời nhận xét