用户画像技术的应用范围非常广泛,包括用于精准营销,通过分析潜在用户,针对特定用户群体进行广告投放,减少不必要的广告费用;或者通过分析用户数据的关联性,构建面向用户的个性化推荐系统,对服务或产品做到千人千面的定制化部署。
用户画像技术具有很高的理论研究与应用价值,许多研究者从不同角度、不同类型的数据中提出构建用户画像的方法。Kacem 等考虑用户一段时间的连续搜索词,对词频和词语的新鲜度进行时序建模,利用TFIDF 表示关键词向量,生成用户的具有时效性的画像。Zhao 等在基于传统矩阵分解的方法上进行改进,基于Google+ 的社交网络内容,构建用户行为兴趣矩阵,通过分解生成基于不同行为兴趣的用户向量,以此表示用户画像。Yin 等则考虑利用用户的轨迹信息进行建模,通过构建包含用户、家庭信息、地点信息、对应的主题,以及在不同地点的行为频率映射成分数,生成用户基于位置信息的五元组,作为用户画像表示。
然而,在目前阶段,用户画像的构建过程仍存在很大的问题,从用户数据采集,到数据处理,再到行为数据的提取建模,最终生成用户标签。这其中涉及到大量人工操作,同时人工的主观性会影响到用户画像的可观性与准确性。因此,我们提出了基于知识图谱的用户画像构建技术。
---
2.知识图谱构建技术
针对大数据条件下用户行为所产生的信息,我们以显性知识的有效结构化为目标,采用基于深度语义学习的实体识别、 关系抽取,以及属性抽取技术实现对多源用户信息的抽取;采用基于跨模态共享子空间学习理论的知识融合技术,实现对跨模态跨领域用户的信息融合;采用基于深度神经语言模型的知识推理与实体扩展技术,实现对知识图谱的动态演化与更新。具体的技术路线如图 2 所示。
图2.知识图谱构建技术路线
本项目所采用的知识图谱构建技术主要包括:
● 面向多源信息的知识图谱实体与关系抽取技术。
● 面向多源信息的实体对齐与多尺度融合技术。
● 知识图谱关系扩展与推理技术。
● 时空多尺度场景下的知识图谱主题演化与更新技术。
---
3.基于知识图谱的用户画像技术
本项目利用系统采集到的大量真实用户数据,包括用户的手机APP 行为数据、浏览器搜索词数据、游戏直播等娱乐消费数据,首先对所有原始数据进行字段筛选,并进行初步预处理,获得直接反映用户行为的字段,比如APP 的描述与开发者所打标签、一段时间的游戏消费金额数据、用户的连续搜索行为数据。然后,基于用户的行为数据构建面向用户画像的知识图谱,再将生成知识图谱的所有语料,或来源于新闻报道,或论坛的问答,同时包含所有APP 的描述语料,利用深度语义模型表示成词向量表示。
针对企业的用户画像需求,首先可以对特定的需求信息进行解析,并进行语义泛化,得到与该需求信息的语义接近的TopN 词语表示。比如,对于“具有赌博倾向的用户”需求信息,我们可以泛化出“赌球”、 “赌马”、“赌场”等与相近的词语表示。 然后,利用知识图谱提供的实体与实体之间的语义相似性和逻辑相关性,通过在词向量空间中计算相关词语之间的欧氏距离,对所有通过需求词泛化得到的词语表示,在知识图谱中寻找语义相近的实体,通过欧氏距离的表示可以得到词语与实体之间的相关性。得到语义有关的知识实体之后,同样利用向量的相似性计算得到相关实体与已知用户行为标签语义相近的标签表。依据相似值的大小,我们可以直观的了解与需求词语相关的用户行为标签,通过组合计算,便可以得到与标签对应用户的相关性的强弱,从而生成可以表示用户特性的用户行为标签关联组合,如图 3 所示。
图3.基于知识图谱的用户行为标签组合示例
本文比较系统地介绍了基于知识图谱的用户画像技术,通过上述介绍可以看出 :
① 目前用户画像技术仍然处于基于人工操作“打标签”状态,用户行为分析的扩展性不够;
② 知识图谱在用户画像技术上的应用还处于初期阶段,需要更好地开展理论和应用研究;
③ 面向海量用户行为数据的用户画像技术仍然需要更复杂和更 成熟的算法研究来推动。 此外,用户画像技术是多学科的结合,需要知识图谱、自然语言处理、
机器学习和数据挖掘等方面的知识融合;有很多开放性问题需要学术界和产业界一起解决。我们有理由相信学术界在上述方面的突破将会极大地促进用户画像技术的发展。
了解更多干货文章,关注小程序八斗问答