预防在线广告欺诈的世界涉及在未达到广告预算之前就发现攻击。这需要连续流传输高频,大容量数据。这就需要建立神经网络以检测广告欺诈。由于存在信用卡欺诈行为,银行的请求数量有限,每天要进行100万次调查。但是,广告欺诈预防解决方案需要每秒分析20000个请求。因此,非常有必要在异常事件发生时使用我们的平台来监视和警告我们的网络安全团队和广告客户。
这听起来可能并不那么复杂。但是从我们的经验来看,这绝非易事,为了使我们的客户认真对待这些警报,它们必须有意义。因此,正确警报与错误警报的比率必须尽可能高。使用标准方法,例如数据点的百分比变化例如,每分钟变化一次,不要考虑趋势,因此添加的新数据流/量将引发错误警报。
简单的统计方法,例如移动平均交叉法一种用于时间序列分析的技术,其中您可以计算两次时间窗的移动平均没有考虑到季节性,每日一次,每周一次或每月一次。
ARIMA等更复杂的统计模型确实可以说明趋势和季节性,ARIMA是一种使用时间序列数据以更好地理解数据集或预测未来趋势的统计分析模型。但是,当试图在预测中描述变量多变量之间的复杂关系时,这些模型通常不准确。
这些困难导致我们建立了一个深层的神经网络来学习我们的信号,预测下一个值并在观察到的实际值超出模型的误差范围即异常或外层时发出警报。从技术上讲,我们在python中构建了服务语言和Google的tensorflow深度学习库。
该模型是具有双重堆叠的长期短期记忆LSTM层的递归神经网络,可预测下一个时间步的信号值,在本例中,我们使用10分钟时间步,将30天历史网络流量分段的数据集分为在线广告欺诈类型。
该模型的灵感来自Egor Korneev出色的中级帖子,一旦发现异常,就将其馈送到一个解释性模块,该模块通过查询数据库获取异常时间戳及其附近的不同字段,并将警报发送到包含信号图表的团队松弛通道在突出显示异常的情况下,异常的详细信息和指向Kibana仪表板的链接已按照说明模块的建议在异常的异常值上进行过滤。
该异常检测算法和解释模块可发现大量数据的隐藏欺诈模式。我们为客户分析的数据包括,例如,分析一组具有类似行为模式的欺诈性远程服务器,特定的数据中心/在线服务/ Web浏览器/具有欺诈性流量的地理区域,而无论这些欺诈性趋势是在用户端例如,机器人,DDOS攻击 ,VPN用户等或网站例如,点击劫持,强制刷新等。
例如,这在我们的点击欺诈产品中使用,可以防止所有付费搜索和付费社交平台上的无效点击。
例如,我们发现了八个网站,所有网站都建立在同一免费论坛的平台上,所有网站都复制了来自不同网站的内容,都使用了相同的网站模板,并且都在巴西圣保罗以外的同一村庄运营。将它们连接在一起的事实是,它们全部只将其98%的流量归功于三个IP,而这三个IP则归因于其他七个站点中的三个。
在CHEQ,我们正在与在线广告欺诈作斗争,发现这些模式使我们既能够连续检查我们的产品是否存在不合理的屏蔽,又能够不断开发新功能以适应不断变化的在线广告欺诈形势。没错,这是一场军备竞赛,如果您没有前进,那么您将落后,想了解更多关于神经网络的信息,请继续关注中培教育。