博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
KDD 2020(三) | 从多个环境选择性偏差中学习稳定的图结构
阅读量:2242 次
发布时间:2019-05-09

本文共 2481 字,大约阅读时间需要 8 分钟。

⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

何玥,清华大学计算机科学与技术系、多媒体与网络实验室、二年级博士生。导师为崔鹏教授。主要研究方向为:因果挖掘、稳定学习和图计算。已在KDD、IJCAI等会议上发表多篇论文。

一、提出问题

1.1

什么是图结构

图(Graph):是一种比线性表和树更为复杂的数据结构,图(a)就是一个图的例子。

图结构:是研究数据元素之间的多对多的关系。在这种结构中,任意两个元素之间可能存在关系。

那么作者在这方面遇到的问题形象的描述起来,模型学习到的关于炸鸡、啤酒和可乐之间的图结构,在面对西方人和韩国人之间的选择偏差时,模型会遭到不稳定性的困扰,简单点就是选择困难症。

1.2

问题提出

在一个Data Source 中可以通过不同的采样方式获得不同的数据集合,并且通过图去描述这个采样环境。上图的绿色和蓝色框描述了两个通过不同采样结果后,经过构建图的算法得到的图结构,虽然来自相同的数据源,但是这两个图却不能很好的互相描述采样环境。同样的,这样的图也不能描述完整的数据源,偏差的图会导致偏差的结果。

那么要如何从多个环境中去学习得到稳定的图结构呢?

1.3

面临的挑战

单独环境的采样结果相对于源来说是稀疏的,以上一节的图来说,小绿的采样结果无法扩展并覆盖整体的数据源,如果想要获得稳定的结果就需要多环境的支持。

问题中所面对的图结构有着两个特征。首先,在图结构中,点与点之间包含着高阶的、非线性的关系。其次,所需要处理的问题往往是大规模、高数量级的。因此,简单的相加不是解决问题之道,那么能否通过寻找隐空间的关系平衡偏差,进而获得稳定的数据集,最后获得稳定的图结构呢?作者接下来就阐述了他们的工作。

二、解决问题

2.1

稀疏数据的生成

首先要做的稀疏数据的生成。以集合数据为例,通过不断的添加元素知道集合达到稳态,即集合大小不会变化。添加过程中基于复杂的条件概率分布不断的生成图结构,其中第一步A表达的是一种先验的结构偏差,不存在于图结构中,但是会对稳定图结构的学习造成影响。

首先,将得到的数据集构建成图结构,作为输入。然后,通过GCN将图的关系嵌入矩阵中的元素表征中。之后,设计一个单元式变分自动编码器。最后,经过学习可以得到图结构中对应的概率分布关系。

2.2

稳定图结构学习

上图是一个方便理解的简略图。由2.1所得到的小绿,将其变为Env1的条件概率分布,其中绿线是一个分布族,Env2是另一个得到的图。通过对Env1和Env2进行平均化得到一个新的条件概率分布图,这个图所对应的结构就是一个稳定的图结构。

在这一步中,上半部分表现为多个图环境{1,2,……,M}以及一个集合(S),并且还能够得到这个集合的元素能够被添加到各个环境中的条件概率p(i)。下半部分则是假设存在一个稳定的图,并且能够覆盖集合S,其也有一个条件概率p(u)。接下来的工作就是不断的优化图GS使其对应的条件概率不断的接近多环境图的平均条件概率。在作者的工作中,还共享了GCN和E-VAE的参数,使其有着通过增加环境的数量来提高学习效果的优势。

三、实验验证

3.1

模拟实验

作者设计了一个模拟实验,叫做有偏的加权随机游走。通过创建两个环境,并且其包含的集合数据的关系是不同的。区别于传统的随机游走方程,作者在其方程中增加了Q方程,其作用在于随机游走时,一个点更倾向于迁移到与它相同类型的点。上图描述了一阶偏差和高阶偏差的迁移示意。最下层的模拟了零阶偏差,即先验条件,设置点在不同环境下的游走起点的概率。

在如图的两个环境Env1和Env2下,生成两个图G(1)和G(2);混合两个环境,获得图G(C),其本质上更稳定一些;把图G(1)和G(2)进行线性平均,获得图G(A);最后的则是通过本文的框架SGL学习得到的图G(S)。

为了评测图结构的有效性,制作了集合预测任务,基于点的表征做集合预测。从预测结果来看SGL的图更具有稳定性。从右图中也可以看到,基于单个环境学到的图的准确性会随着另一个环境的增加而陡峭的下降。G(A)属于线性平均,所以无法应对高阶的偏差。所以G(S)可以以最小的方差在定义的环境中达到最稳定的效果。

3.2

真实实验

依托于阿里的推荐系统,进行了真实的实验,在推荐系统中存在着用户群体的偏差,以及可能出现的热门商品越热,冷门商品被忽视推荐的问题。基于上面的两种偏差情形,拆分出了不同的数据环境,用户群体偏差(女生:Env1,男生:Env2)和曝光偏差(非爆款:Env1,爆款:Env2)。可以看出,女性商品和爆款商品都是具有强关联性的数据,从结论来看,SGL对于图结构的泛化性有着提升的效果。这意味着,当你以新用户的身份点开购物网站,这个推荐系统可以给出在期望条件下最好的决策。

Reference:

[1] He, Y; Cui, P; Ma, J; Zou, H; Wang X; Yang H; Yu, P. Learning Stable Graphs from Multiple Environments with Selection Bias. KDD, 2020.

整理:闫昊

审稿:何玥

排版:田雨晴

本周直播预告:

AI Time欢迎AI领域学者投稿,期待大家剖析学科历史发展和前沿技术。针对热门话题,我们将邀请专家一起论道。同时,我们也长期招募优质的撰稿人,顶级的平台需要顶级的你,请将简历等信息发至yun.he@aminer.cn!

微信联系:AITIME_HY

AI Time是清华大学计算机系一群关注人工智能发展,并有思想情怀的青年学者们创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法、场景、应用的本质问题进行探索,加强思想碰撞,打造一个知识分享的聚集地。

更多资讯请扫码关注

(点击“阅读原文”观看本次直播回放)

(论文链接:http://pengcui.thumedialab.com/papers/StableGraph.pdf)

转载地址:http://dqgbb.baihongyu.com/

你可能感兴趣的文章
Eclipse下运行Maven项目提示缺少maven-resources-plugin:2.4.3
查看>>
Java 中int、String的类型转换
查看>>
比较两个JSON字符串是否完全相等
查看>>
删除JSONArray中的某个元素
查看>>
Linux下Tomcat重新启动
查看>>
使用HttpClient请求另一个项目接口获取内容
查看>>
HttpClient get和HttpClient Post请求的方式获取服务器的返回数据
查看>>
net.sf.json Maven依赖配置
查看>>
Could not initialize class net.sf.json.JsonConfig错误解决
查看>>
Java编程思想重点笔记(Java开发必看)
查看>>
eclipse 创建maven 项目 动态web工程完整示例
查看>>
前端JSP与Spring MVC交互实用例子
查看>>
使用maven一步一步构建spring mvc项目
查看>>
hadoop map reduce 阶段笔记
查看>>
java jackcess 操作 access
查看>>
Git问题Everything up-to-date解决
查看>>
Hadoop HDFS文件操作的Java代码
查看>>
Hadoop学习笔记—3.Hadoop RPC机制的使用
查看>>
Hadoop学习笔记—22.Hadoop2.x环境搭建与配置
查看>>
JTS Geometry关系判断和分析
查看>>