(1)网络信息内容的获取,主要研究如何在大规模网络环境中快速获取各种协议的信息内容;
(2)网络内容还原分析,主要是将获取的数据包还原,并分析其中的信息内容。
在实际应用中,网络信息内容审计系统主要由负载均衡模块、包捕获模块、协议还原分析模块、数据过滤与分流模块、内容处理模块、结果反馈查询模块等组成。根据具体需求和资源限制,内容审计系统分为流水线模型和分段模型两种过程模型。
流水线是一种可使两个或多个操作在执行时发生重叠的技术。在流水线操作中,一个任务被分解为多个子任务。在执行时,多个子任务相互重叠。根据处理流量不同,流水线处理过程中各个时期的延时均不相同,但应保证延时的平均值不会随时间的推移而增大。因此,流水线处理要求各个部分处理速度基本相同。
分段式处理模型的基本思想是先收集某个网段一定时间内的数据,然后进行离线式分析。此模型分为实时处理和离线处理两部分。包捕获以前的部分设计为实时处理部分,协议分析还原部分设计为离线处理部分。与流水线模型相比,分段式处理模型的瓶颈在于其包捕获处理能力。分段式处理模型仅能对部分时间段内的高速流量进行处理。
网络中不良信息的数量与日俱增,所造成的文化污染、网络犯罪等问题已经受到人们越来越多的关注。如何及时发现网络中的不良信息,准备地对其进行识别和判断,并采取有效的措施对其进行监管是当前面临的重大挑战。