Microsoft, Intel combinan aprendizaje profundo y píxeles para Nix Malware | Malware


Por John P. Mello Jr.

13 de mayo de 2020 10:11 AM PT

Los investigadores de Microsoft e Intel han encontrado una manera de combinar inteligencia artificial y análisis de imágenes para crear un medio altamente efectivo para combatir infecciones de software malicioso.

Los investigadores llaman a su enfoque "STAMINA" (análisis de red estático de malware como imagen) y dicen que ha demostrado ser altamente efectivo en la detección de malware con una baja tasa de falsos positivos.

Lo que STAMINA hace es tomar archivos binarios y convertirlos en imágenes que el software de inteligencia artificial puede analizar mediante el "aprendizaje profundo".

"STAMINA es un enfoque fascinante para clasificar el malware", dijo Mark Nunnikhoven, vicepresidente de investigación en la nube de Trend Micro, un proveedor de soluciones de ciberseguridad con sede en Tokio.

"Este enfoque es como graficar una gran tabla de datos", dijo a TechNewsWorld. "Puede ser más fácil detectar patrones en el gráfico que peinar los datos en bruto".

Al utilizar enfoques comunes de aprendizaje automático de análisis de imágenes, los equipos pudieron agrupar muestras de malware en familias y diferenciar entre el software deseado y el malware, dijo Nunnikhoven.

"Este no es el único método de aprendizaje automático, pero es un enfoque nuevo e interesante lleno de potencial", agregó.

El mayor inconveniente del método está relacionado con el tamaño del malware, señaló Nunnikhoven. "Debido a que la técnica convierte el malware en una imagen, puede consumir recursos rápidamente. Si alguna vez ha intentado abrir una foto realmente grande en una computadora más antigua, tiene experiencia de primera mano con los desafíos".

99 por ciento de precisión

"A medida que las variantes de malware continúan creciendo, las técnicas tradicionales de comparación de firmas no pueden seguir el ritmo", explicaron en un documento blanco los investigadores de Intel Li Chen y Ravi Sahita y los investigadores de Microsoft Jugal Parikh y Marc Marino.

"Buscamos aplicar técnicas de aprendizaje profundo para evitar la costosa ingeniería de características y utilizamos técnicas de aprendizaje automático para aprender y construir sistemas de clasificación que puedan identificar efectivamente los archivos binarios del programa de malware", escribieron.

"Exploramos una técnica novedosa basada en imágenes en binarios del programa x86", continuaron, "que resultó en una precisión del 99.07% con una tasa de falsos positivos del 2.58%".

Los enfoques clásicos de detección de malware implican la extracción de firmas binarias o huellas digitales del malware. Sin embargo, el crecimiento exponencial de las firmas hace que la coincidencia de firmas sea ineficiente, explicaron los investigadores.

El malware también se puede identificar analizando el código de los archivos. Eso generalmente se hace con análisis estático o dinámico, o ambos. El análisis estático puede desmontar el código, pero su rendimiento puede verse afectado por la ofuscación del código. El análisis dinámico, aunque puede descomprimir el código, puede llevar mucho tiempo, señalaron.

"Si bien el análisis estático generalmente se asocia con los métodos de detección tradicionales, sigue siendo un componente importante para la detección de malware impulsado por la IA", escribieron Parikh y Marino de Microsoft en una publicación separada en STAMINA.

"Es especialmente útil para los motores de detección previos a la ejecución: el análisis estático desmonta el código sin tener que ejecutar aplicaciones o monitorear el comportamiento en tiempo de ejecución", señalaron.

"Encontrar formas de realizar análisis estáticos a escala y con alta efectividad beneficia las metodologías generales de detección de malware", señalaron Parikh y Marino.

"Para este fin, la investigación tomó prestado conocimiento del dominio de visión por computadora para construir un marco mejorado de detección de malware estático que aprovecha el aprendizaje de transferencia profunda para entrenar directamente en archivos binarios ejecutables (PE) portátiles representados como imágenes", explicaron.

Mejor escalamiento, procesamiento más rápido

"Las técnicas tradicionales de análisis de malware han disminuido su eficacia durante mucho tiempo", observó Chris Rothe, director de productos de
Canario rojo, un proveedor de servicios de seguridad basado en la nube ubicado en Denver.

"El análisis estático y dinámico es efectivo pero puede ser difícil de escalar", dijo a TechNewsWorld. "Uno de los beneficios de este enfoque es que permite aprovechar la tecnología de otros dominios que tienen la capacidad de operar a gran escala".

"Esto es necesario debido a la explosión de muestras binarias que han sido creadas por atacantes que mutan malware para evitar la detección", continuó Rothe. "Entonces, si esta técnica funciona, podría traer de vuelta el análisis binario como un método viable de detección de amenazas".

El enfoque de Microsoft-Intel también reduce el tamaño de entrada en el sistema de análisis, lo que puede traducirse en un procesamiento más rápido.

"Si está convirtiendo un archivo binario en píxeles, hay una cierta cantidad de reducción de entrada que va con eso", dijo Malek Ben Salem, director de I + D de seguridad de las Américas para Accenture, una empresa de servicios profesionales con sede en Dublín.

"Con STAMINA, van aún más lejos. Convierten los archivos binarios en píxeles y luego reducen el tamaño de la imagen", dijo a TechNewsWorld.

"El hecho de que pueda reducir ese tamaño de entrada y alimentarlo a una red de aprendizaje profundo significa que puede procesar mucha más información", dijo Ben Salem. "Puedes ver muchas más instancias de malware, lo que acelerará mucho las cosas".

Fácil para el ojo humano

Aunque los investigadores ven que su método se utiliza en un entorno completamente automatizado, las imágenes también serían valiosas para los tipos de seguridad humana.

"En los casos en que una máquina no está segura de si un archivo es benigno o no y se necesita inspección humana, a un humano le resultaría más fácil relacionarse con una imagen que con un código hexadecimal", señaló Ben Salem.

Agregar aprendizaje profundo al proceso de detección también proporciona ventajas sobre las técnicas existentes.

"Con un modelo de aprendizaje profundo, puede manejar datos complejos", dijo Ben Salem. "Eso significa que pequeñas variaciones en el malware podrían detectarse más fácilmente mucho mejor que los enfoques clásicos de aprendizaje automático que hemos estado usando hasta ahora".

Los investigadores reconocieron límites en sus métodos.

"Nuestro estudio indica los pros y los contras entre los métodos basados ​​en muestras y los basados ​​en metadatos", escribieron en su documento técnico.

"Las principales ventajas son que podemos profundizar en las muestras y extraer información textural, por lo que todas las características de los archivos de malware se capturan durante el entrenamiento", explicaron los investigadores.

"Sin embargo, para aplicaciones de mayor tamaño, STAMINA se vuelve menos efectiva debido a que el software no puede convertir miles de millones de píxeles en imágenes JPEG y luego cambiar su tamaño", continuaron. "En casos como este, los métodos basados ​​en metadatos muestran ventajas sobre los modelos basados ​​en muestras".

En el futuro, el equipo quiere evaluar modelos híbridos utilizando representaciones intermedias de los binarios e información extraída de binarios con enfoques de aprendizaje profundo. Se espera que esos conjuntos de datos sean más grandes, pero pueden proporcionar una mayor precisión.

Los investigadores planean continuar explorando las optimizaciones de aceleración de plataforma para sus modelos de aprendizaje profundo para que puedan implementar tales técnicas de detección con un impacto mínimo de potencia y rendimiento para el usuario final.


John P. Mello Jr. ha sido reportero de ECT News Network
desde 2003. Sus áreas de enfoque incluyen seguridad cibernética, problemas de TI, privacidad, comercio electrónico, redes sociales, inteligencia artificial, big data y electrónica de consumo. Ha escrito y editado para numerosas publicaciones, incluida la Boston Business Journal, la
Boston Phoenix, Megapixel.Net y Gobierno
Noticias de seguridad
. Email John.



LO MÁS LEÍDO

Leave a Reply

Your email address will not be published. Required fields are marked *