您当前的位置:中国科学网>资讯>正文

智能家居暴露隐私港中文等利用LSTM攻克IoT安全设定

放大字体  缩小字体 时间:2019-10-09 14:30:07 作者:责任编辑NO。杜一帆0322

机器之心原创

作者:芦新峰

修改:Joni

本年 8 月份,香港中文大学张克环教授研讨组在 arxiv 上发布了一篇文章,展现了他们组关于智能家居隐私性的研讨。文章作者测验运用 LSTM 模型对智能家居里的活泼设备进行猜想。该猜想能够使服务提供商(ISP)猜想用户正在家里运用什么类型的设备,然后有可能对具有不同设备的用户有不同的商业推行手法。

论文地址:https://arxiv.org/pdf/1909.00104.pdf

在此之前,已经有不少人做了相关的研讨,但他们的研讨大都是依据纯洁的试验室环境,很难移植到杂乱的实际环境中。作者经过剖析实在国际中的 IoT 设备以及揭露数据集,发现物联网设备的流量与桌面流量和移动流量比较有以下差异:

同一类其他设备有类似的流量方式(下图为两种语音帮手辨认语音指令时的流量改变状况)

设备都有「心跳」传输来确保网络和设备的联通,不同设备的「心跳」方式不同

不同设备传输协议份额不同(下图展现了 IoT 设备和非 IoT 设备的协议运用状况)

作者以为,这些特征标明即使是在杂乱场景下,而且具有必定的安全设备(NAPT 和 VPN)也能辨别不同的 IoT 设备。因为现有的数据集不满足作者的要求,因而作者团队自己搭建了一个数据搜集的体系。

试验数据搜集

该体系包括 10 个 IoT 设备和 4 个非 IoT 设备,体系内设备如下图所示。

作者预备在三个环境下搜集流量信息:单一设备环境、多设备喧闹环境 (运用 NAPT 技能) 以及 VPN 环境。

首要介绍一下 NAPT 技能和 VPN 技能。NAPT 是一种网络地址转化技能,与 NAT 不同,NAPT 支撑端口的映射。NAT 完成的是本地 IP 和 NAT 的公共 IP 之间的转化,因而本地局域网中一起与公网进行通讯的主机数量就遭到 NAT 的公网 IP 地址数量的约束。而 NAPT 克服了这种缺点——NAPT 技能在进行 IP 地址转化的一起还对端口进行转化,因而只需 NAT 中的端口不抵触,就答应本地局域网的多台主机运用一个 NAT 公共 IP 就能够一起和公网进行通讯。

VPN 一般用于互连不同的网络,以构成具有更大容量的新网络。它是依据 IP 地道机制,不同子网中的主机能够彼此通讯,而且能够经过认证和加密保密传送的信息。

在生成流量的进程中,作者采用了两种触发方法:手动触发和主动触发,手动触发能够模仿实在环境下的人机交互,主动触发能够减轻试验者的担负。在主动触发方式下,作者运用 Monkey Runner 对需要用 APP 进行交互的 IoT 设备进行触发;关于语音帮手等 IoT 设备,作者经过重复播映口令来进行触发。

手动触发方式只在多设备场景下运用,在该方式下,作者经过随机进出房间来对房间内的试验设备进行触发。该种方法与主动触发比较,更具有随机随机性,然后有助于模型的泛化。

整个流量搜集进程继续 49.4 个小时,共搜集 4.05GB 的数据,共包括 7223282 条有用通讯包。

数据预处理

在进行试验评价之前,作者先对数据进行了预处理——将初始数据转化为模型能够处理的数值向量。

数据预处理进程可分为两部分,特征提取和制造数据包的标签。在特征提取进程中,共提取了五个特征,分别是端口 (dport)、协议 (protocol)、方向 (direction)、帧长 (frame length)、时刻距离 (time interval),并将这五个特征组成一维向量,如下图所示。

在给数据包制造标签的进程中,针对在 VPN 环境下较难打标的问题,作者发现了如下规则,然后能够较精确地给数据包打标签:

经过 VPN 处理后,数据包的体积会变大

不同体积的数据包经过 VPN 加密后体积相同

VPN 会引起数据包传输推迟,这个推迟一般短于 0.02 秒

模型挑选

在模型挑选上,作者共选取了三个模型:随机森林(基线模型)、LSTM 模型以及 BLSTM(双向 LSTM)模型。因为随机森林无法直接学习离散值,作者对端口的特征值进行了独热编码处理。

关于 LSTM 模型,作者也对输入模型的数据进行了处理,他将多个接连向量进行了分组并组成流量窗,如下图所示。

作者运用的 LSTM 模型如下图所示。该模型由多个根底模块组成,每个根底模块又包括有 Embedding 层、LSTM 层、全衔接层以及 Softmax 层。

因为 LSTM 模型在学习上下文信息时只能检查数据包的「曩昔」,因而作者又运用了 BLSTM 模型。BLSTM(双向 LSTM)是 LSTM 的扩展,它经过组合从序列结尾移动到其最初的另一个 LSTM 层来运用来自「未来」的信息。作者运用的 BLSTM 模型见下图。

模型评价

数据集

共有两种数据集,Dataset-Ind 以及 Dataset-Noise。每种数据集又有两个版别:NAPT 版别和 VPN 版别。Dataset-Ind 数据集包括来自 10 个独自 IoT 设备的流量数据,这些数据被组成流量窗。Dataset-Ind 数据集共有 32760 个流量窗。

Dataset-Noise 数据会集的数据也是以流量窗的方式存在,与 Dataset-Ind 数据集不同的是,该数据会集的每个流量窗都是由多个设备的数据包组成。Dataset-Noise 数据集包括 114989 个流量窗。

评价方针

总精度(overall accuracy) 和分类精度(category accuracy)

评价成果

在 Datatset-Ind 数据集下的评价成果如下表所示。从表中能够看出,LSTM 模型的精度遍及高于随机森林模型。

随后,作者又在 Dataset-Ind 数据集下研讨了流量窗巨细对试验精度的影响,成果显现,流量窗越大,试验精度越高。因而,在接下来的试验中,流量窗的巨细默以为 100。

在 Dataset-Noise 数据集下的评价成果如下图所示。由图中能够看出,随机森林模型在该数据集下的总精度下降显着,在 NAPT 环境下总精度为 84.5%,在 VPN 环境下的总精度为 67.6%。而 LSTM 模型在 NAPT 环境下体现较好,在 VPN 环境下体现较差。

作者对随机森林模型和 LSTM 模型精度下降的现象进行了剖析,以为随机森林模型精度下降的原因是多个 IoT 设备和非 IoT 设备一起运用一个端口进行通讯,使得该模型分类失利;而 LSTM 模型精度下降的原因,作者以为是由稀少流量形成的:因而在 VPN 协议的极点状况下,智能插头(图中 orvibo, tplink)发生的流量包能够在流量窗口中被稀释到不到 3%。令这两款智能插头不能被辨认出。(PS 依据这原理,咱们上网用这个发生「噪声」的小程序也能够保证咱们的隐私:https://github.com/1tayH/noisy)

定论

依据试验成果,作者以为即使是在加密和流量交融的状况下,物联网设备的网络通讯也会发生严峻的隐私影响。人们应该进行更多该方面的研讨,以更好地了解智能家居网络中地隐私问题并缓解此类问题。

相关材料:

1. Accessed: September 2019. "Can a MAC address be traced?". Available online at https://askleo.com/can_a_mac_address_be_traced/.

2. Acar A, Fereidooni H, Abera T, et al. "Peek-a-Boo: I see your smart home activities, even encrypted!". arXiv preprint arXiv:1808.02741, 2018. Available online at https://arxiv.org/pdf/1808.02741.

3. Bezawada B, Bachani M, Peterson J, et al. "Iotsense: Behavioral fingerprinting of iot devices". arXiv preprint arXiv:1804.03852, 2018. Available online at https://arxiv.org/abs/1804.03852.

4. Apthorpe N, Reisman D, Feamster N. "A smart home is no castle: Privacy vulnerabilities of encrypted iot traffic". arXiv preprint arXiv:1705.06805, 2017. Available online at http://arxiv.org/abs/1705.06805.

5. Apthorpe N, Reisman D, Sundaresan S, et al. "Spying on the smart home: Privacy attacks and defenses on encrypted iot traffic". arXiv preprint arXiv:1708.05044, 2017. Available online at http://arxiv.org/abs/1708.05044.

6. Accessed: September 2019.「Smart home blog」. Available online at https://blog.smarthome.com/.

作者介绍:芦新峰,吉林大学在读硕士,首要研讨方向为方针检测。

本文为机器之心原创,转载请联络本大众号取得授权。

------------------------------------------------

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!