Comparación de Adaboost con MultiBoosting para Detección de sitios web de phishing

Temas acerca de Inteligencia Artificial
Foto de Usuario
frankhuaricacha

Ranking Troomes
Mensajes: 16
Registrado: 08 Ene 2020, 20:46

Comparación de Adaboost con MultiBoosting para Detección de sitios web de phishing

Mensaje por frankhuaricacha » 29 Jun 2020, 19:49

Introducción:

El Phishing actualmente es una de las técnicas más usadas para robar información, el cual consiste engañar al usuario haciéndose pasar por otra persona, empresa, servicio o contacto de confianza. El objetivo del atacante es obtener la mayor cantidad de información por parte del usuario a atacar, comúnmente estos tipos de ataques se han visto en las transacciones bancarias,
donde a través de una página falsa se incita al usuario a ingresar sus datos personales con el engaño de que recibió algún bono o su tarjeta ha sido bloqueada.
Imagen Imagen

Otras de la formas en las que se ejecuta el phishing es a través de correo electrónicos, los cuales en el cuerpo del mensaje envían enlace que redirecciona al usuario. Existen dos formas de poder contrarrestar contra estos ataques y prevenirlos:
  1. Verificar URL: Este método consiste en ingresar el enlace, que posiblemente sea de engaño, en el buscador de estas plataformas con el fin de detectarlas en su lista negra. Entre ellas encontramos a :
  2. Método Metaheurístico: Consiste en realizar una clasificación de las características que contiene la URL a analizar y sobre el cuál detonaremos un modelos entrenado en base a ML con el fin de reconocer aquellos patrones que nos permitan clasificar el URL como una página fiable o no.
Material para el entrenamiento de los modelos: https://archive.ics.uci.edu/ml/datasets ... g+Websites
Atributos considerados: Las características son: dirección IP, URL con el símbolo "@", redireccionamiento mediante "//", servicios de acortamiento de URL "TinyURL", URL larga para ocultar la parte sospechosa, subdominio y subdominios múltiples, agregando prefijo o sufijo separados por ( -) al dominio, longitud de registro de dominio, Favicon, HTTPS (Protocolo de transferencia de hipertexto con capa de sockets seguros), uso de puerto no estándar, URL de solicitud, existencia del token "HTTPS" en la parte del dominio de la URL, URL de ancla, tráfico del sitio web, controlador de formularios del servidor (SFH), URL anormal, personalización de la barra de estado, envío de información al correo electrónico, reenvío del sitio web, PageRank.

Técnicas de aprendizaje automático
El aprendizaje automático es un modelo de programación de optimización para abordar un criterio de rendimiento basado en datos de capacitación o experiencias históricas. El modelo de optimización se puede usar para hacer predicciones en el futuro o se puede usar para obtener conocimiento de los datos o para ambos propósitos. Primero, para resolver los problemas de optimización y almacenar y procesar la gran cantidad de datos, se requiere un algoritmo de entrenamiento eficiente. En segundo lugar, cuando el modelo se entrena y aprende con éxito, la representación y las soluciones de algoritmos para la inferencia deben ser lo más eficientes posible. La eficiencia del algoritmo de aprendizaje es tan esencial como su precisión predictiva, a pesar de su complejidad espacial y temporal

AdaBoost
Una de las técnicas más populares de Boosting es el algoritmo Boosting Adaptativo (AdaBoost). Este algoritmo, mediante un entrenamiento iterativo de los clasificadores débiles o de base, le asigna mayor importancia a los datos mal clasificados anteriormente, y de esta manera obtiene un nuevo clasificador.

MultiBoosting
Multiboosting combina AdaBoost y wagging

Resultados y discusión
Para el análisis de los resultados se ha utilizado la herramienta weka para entrenar el modelo en base a los algoritmos utiizados.

Otro métodos propuestos y las comparaciones con la precisión alcanzada:
Zhang et al. (2008): Blacklisting system based on a relevance ranking scheme 95%
Xiang and Hong (2009): Hybrid phish detection method based on information extraction and information retrieval 94.05%
Chang et al. (2013): Website identity using web Image 96.25%
Chiew et al. (2015): Website logo 93.4%
Tan et al. (2016): Identity keywords extraction and target domain name finder 96.1%
Chiew et al. (2018): Leverages the favicon with Google image search 96.4%
Subasi et al. (2017): Random forest 97.36%
Chiew et al. (2019): Random Forest 96.17 %
Li et al. (2019): CNN 98.60 %
Rao & Pais (2019): Jail-Phish 98.61%
Proposed Method: Adaboost with SVM 97.61%

Referencias:
Abdulhamit Subasia, Emir Kremic. (25/02/2020). Comparison of Adaboost with MultiBoosting for Phishing Website Detection. Procedia Computer Science, 168, 272–278.
url: https://www.sciencedirect.com/science/a ... 0920303902
Responder