1.2 Web流量的抓取方式_互联网安全建设从0到1-QQ阅读男生历史网

上QQ阅读APP看书，第一时间看更新

1.2　Web流量的抓取方式

20世纪80年代，Tim Berners-Lee创造了万维网并在1991年使用HTTP编写了第一个网站。到如今，HTTP依然是互联网的主要流量。抓取并分析Web流量对于安全分析有重要意义。本节主要介绍HTTP流抓取的基础原理和快速实践。

1.2.1　TCP流还原

HTTP是一个资源请求响应的协议，通常工作在TCP之上，这里主要讨论HTTP 1.0和HTTP 1.1^[1]。

要抓取HTTP流量，首先要进行TCP流的抓取。在上一节中我们已经探讨了流量的抓取方式。从libpcap直接抓取到的数据是一个以太网帧，以太网帧前14个字节分别是目标MAC地址、源MAC地址、两个字节的TYPE类型；类型号0x0800表明承载的网络层协议是一个IP，如图1-4所示。

图1-4　流量示例

IP头中协议号字段为6，表明IP承载的是传输层协议（TCP），如图1-5所示。

图1-5　TCP示例

TCP的payload部分即为应用层数据；不同于以太网帧和IP，TCP头中没有标识HTTP的专有字段，如图1-6所示。

不过HTTP头特征明显，可以很容易地识别出来。

HTTP1.1头总是为[METHOD][URL]HTTP/1.1\r\n。其中METHOD有HEAD/GET/POST/PUT/DELETE/TRACE/OPTIONS/PATCH/CONNECT等，每个方法的具体说明可以参考RFC 2616，此处不再赘述。

图1-6　HTTP

TCP是C/S结构，流还原时最重要的概念是四元组，即客户端IP、客户端端口、服务端IP、服务端端口。TCP是流传输的，支持全双工。一个四元组确定一条流一组双向通信。捕获到TCP流之后再按照TCP的seq序号将其安装顺序组装成TCP流即完成TCP流还原。

如果使用C语言开发，推荐使用libndis（Library Network Intusion Detection System）。libndis是基于libpcap抓包的一个网络入侵检测系统C库。其支持TCP流还原，大致调用流程类似于libpcap，自带例子里有多种使用场景。这里只简单介绍TCP流还原的基础。

在完成libnids初始化之后，使用nids_register_tcp注册一个TCP捕获的回调函数，其函数原型为：

#接受一个回调函数为参数
void nids_register_tcp （void （*））;

#回调函数原型
#ns为TCP流结构
#param可以用来指向某些临时数据
void callback（struct tcp_stream *ns, void **param）

根据ns->nids_state标记了TCP流的建立连接、传输数据、断开等多个状态。在数据状态为NIDS_DATA时，ns->client.count_new值为0，表示服务端发送数据，值为非0，表示客户端发送数据。TCP流还原步骤简单总结如下：

·接收到TCP流后建立连接状态NIDS_JUST_EST，创建四元组hash缓存。

·接收到TCP数据NIDS_DATA，将数据按照四元组hash缓存，并重复此过程，直到接收到其他状态。

·接收到其他状态，取出指定四元组数据即为一组完整TCP流。

[1] Google为解决HTTP 1.1的不足而提出的QUIC协议，即HTTP-over-QUIC就是基于UDP的，IETF将HTTP-over-QUIC重命名为HTTP/3，为最新版本的HTTP。

1.2.2　HTTP

在上面我们得到了还原好的TCP流，接下来需要将TCP流解析成HTTP。

这里推荐使用http_parser。http-parser是Node.js使用的HTTP解析C库^[1]，用户数量巨大，代码质量和效率经得住考验。如果使用C调用，核心方式也是回调函数。将得到的TCP流数据传递给http_parser_execute函数，在http_parser_settings的回调函数中即可得到header、url、body等HTTP字段内容。

使用http_parser_execute所需要传输的数据就是上面NIDS_DATA中捕获到的TCP数据。

在使用http_parser进行HTTP解析时，可以先进行简单的HTTP过滤，例如，可以先用接收到的第一份客户端请求数据来判断是否是[METHOD][URL]HTTP/1.1\r\n形式。

[1] 大多数语言都支持调用C库，http_parser可以被Node.js调用，也可以封装成Python扩展包。

1.2.3　使用packetbeat抓取网络流量

1.1节中，我们介绍了scapy和gopacket，这一节中我们介绍gopacket的成品软件packetbeat。packetbeat是Elastic公司ELK Stack里的重要组成成员，是Beats系列^[1]软件中的抓包软件。使用此开源软件配合ELK可以快速实现Web流量可视化，同时packetbeat也更适用于云环境无法对流量进行镜像的情况。

1.下载安装packetbeat

在官方网站下载并安装：

curl -L -0 https://artifacts.elastic.co/downloads/beats/packetbeat/
packetbeat-7.4.0-linux-x86_64.tar.gz
tar xzvf packetbeat-7.4.0-linux-x86_64.tar.gz

Linux环境中推荐使用CentOS 7以上版本。

2.配置packetbeat

解压之后的目录下有默认的配置文件packetbeat.yml，关键字段说明如下。

抓包网卡名称，any表示抓取全部，示例如下：

packetbeat.interfaces.device: any

抓包snaplen长度，在没有巨帧的情况下用默认值即可，示例如下：

packetbeat.interfaces.snaplen: 1514

抓包类型pcap/af_packet,af_packet模式更为高效，建议按如下方式使用：

packetbeat.interfaces.type: af_packet

抓包时使用的内存缓存区大小，根据流量大小情况调整，示例如下：

packetbeat.interfaces.buffer_size_mb: 100

抓包协议和端口，协议填写http，端口根据实际情况填写，示例如下：

packetbeat.protocols:
- type: http
  ports: [80, 8080, 8081, 5000, 8002]

输出：

output.XXX

详细配置请查看官方文档https://www.elastic.co/guide/en/beats/packetbeat/master/configuring-howto-packetbeat.html。

packetbeat支持多种输出目标，包括Elasticsearch/Logstash/kafka/Redis/File/Console/Cloud，根据实际情况进行配置。其中输出到Elasticsearch中时需要配置Kibana，packetbeat会自动创建可视化的指标。

3.启动程序

packetbeat运行需要使用root权限，示例如下：

sudo ./packetbeat -e

[1] Beats系列软件是使用Go开发的全品类收集器，可以用于所有数据类型，以性能高和数据类型全著称。

1.2.4　其他方案

理论上讲，任何一种NIDS都应当具备流还原的能力，如Bro、Snort、Suricata等。研究这些开源项目可以较快速地得到想要的Web流量抓取方案。

1.2.5　一些常见问题

下面总结了抓取Web流量时遇到的一些常见问题，希望对读者有所裨益。

1.gzip/zlib/deflate压缩编码

抓包时首先解析header中的Content-Encoding，根据内容进行解压缩。注意解压缩后的数据如果依然要通过json等明文协议进行传输，建议使用Base64编码。

2.标准头和自定义头

Web网络流量来自互联网，HTTP头部数据多种多样，而且HTTP允许自定义头，有一些约定俗成的非标准头正被使用。关于标准头和常见自定义头请参考https://en.wikipedia.org/wiki/List_of_HTTP_header_fields。众多的HTTP头会导致在存储和分析时增加不必要的麻烦，特别是像Elasticsearch等文档数据库，字段的数量对性能有很大影响，这里建议在程序中保留标准头部和常用头部，将其他头部合并到一个字段中。

3.转义

packetbeat会将抓取到的数据序列化为JSON并发送给output，而在JSON序列化过程中，为了防止JSON内容以HTML的方式输出时转义而造成XSS漏洞，会默认将&、<、>进行转义。其他语言中也有类似的情况，转义后的内容可能对我们的分析造成不便。

如果需要，可以修改JSON序列化函数，或者在分析前将转义还原。

4.消息体的大小和存储

我们收集的Web流量总是要进行传输、存储之后才能进行分析。常见的Kafka消息队列默认接受1MB以内的消息体，超过的消息将会被丢弃。如果发现大的请求无法获取到，可能是被消息中间件丢弃了。可以在消息体压缩和修改消息队列最大消息体之间做一个平衡。此外，对于网络安全分析人员来说，对于占请求量较大的静态文件，可以直接丢弃响应体。过滤方式是可以先过滤URL中的扩展名，再过滤header中的Content-Type。如果使用packetbeat，则可以使用processors机制来进行过滤。

5.SSL证书卸载

大多数抓包软件无法直接解析HTTPS，在理论上只有使用RSA交换密钥的方式才可以通过旁路流量解析，而Diffie-Hellman方式无法解析。所以应当在网络设备，如F5或者应用nginx卸载证书之后再进行抓包。

6.HTTP chunk

有时候，Web服务器生成HTTP Response是无法在Header中就确定消息大小的，这时服务器一般将不会提供Content-Length的头信息，而是采用Chunked编码动态地提供body内容的长度。

7.监控丢包（流）率

有抓包总会有丢包，丢包率比较好统计。一个TCP流中，丢失一个包可能会导致一条流的还原失败。从镜像流量到网卡抓包，再到消息传输过程，都可能造成丢包。要解决这一问题，一个简单的方案是编写模拟程序，周期性地以固定频率请求某特定网站，加入特殊标记，例如自定义特殊UserAgent；在抓包之后统计抓到的数量，进行抽样，就得到了整体的丢包（流）率。