借一步网
作者:
在
这篇文章将带你了解如何从 MAG (Microsoft Academic Graph) 数据集构建 DKN (Deep Knowledge-aware Network) 模型的训练数据。DKN 是一种用于推荐系统的深度学习模型,它可以利用知识图谱来提升推荐效果。
首先,我们需要准备论文相关文件。在 DKN 中,论文数据格式如下:
[Newsid] [w1,w2,w3...wk] [e1,e2,e3...ek]
其中,Newsid 代表论文的 ID,w1,w2,w3...wk 代表论文中每个词的索引,e1,e2,e3...ek 代表论文中每个实体的索引。词和实体是相互对应的。
Newsid
w1,w2,w3...wk
e1,e2,e3...ek
例如,一篇论文的标题为:
One Health approach in the South East Asia region: opportunities and challenges
那么,标题词的索引可以是:
101,56,23,14,1,69,256,887,365,32,11,567
标题实体的索引可以是:
10,10,0,0,0,45,45,45,0,0,0,0
前两个实体索引为 10,表示这两个词对应同一个实体。词和实体的索引是从 1 到 n 和 m 进行哈希的,其中 n 和 m 分别代表不同词和实体的数量。
接下来,我们需要构建知识图谱文件。知识图谱由三元组组成,每个三元组表示一个事实:
head, tail, relation
例如,一个三元组可以表示:
"COVID-19", "Respiratory disease", "is_a"
表示 COVID-19 是一种呼吸道疾病。
接下来,我们需要准备用户相关文件。我们的第一个任务是用户到论文的推荐。对于每个用户,我们收集他/她引用的所有论文,并按时间顺序排列。然后,推荐任务可以被描述为:给定用户的引用历史,预测他/她将来会引用哪些论文。
DKN 模型需要以下几个文件作为输入:
[label] [userid] [CandidateNews]%[impressionid]
例如:
1 train_U1 N1%0
[Userid] [newsid1,newsid2...]
train_U1 N1,N2
DKN 将推荐任务视为一个二元分类问题。我们根据项目的流行度对负样本进行采样。
我们的第二个推荐场景是关于 item-to-item 推荐。给定一篇论文,我们可以推荐一系列相关的论文供用户引用。
这里我们使用监督学习方法来训练这个模型。每个实例是一个 的元组。Label = 1 表示这对论文高度相关;否则 label 将为 0。
正样本的构建方式如下:
本文介绍了如何从 MAG 数据集构建 DKN 模型的训练数据。通过对论文、知识图谱和用户行为数据的处理,我们可以生成 DKN 模型所需的训练数据,并进一步进行模型训练和评估。
要发表评论,您必须先登录。
这篇文章将带你了解如何从 MAG (Microsoft Academic Graph) 数据集构建 DKN (Deep Knowledge-aware Network) 模型的训练数据。DKN 是一种用于推荐系统的深度学习模型,它可以利用知识图谱来提升推荐效果。
数据准备:论文相关文件
首先,我们需要准备论文相关文件。在 DKN 中,论文数据格式如下:
其中,
Newsid
代表论文的 ID,w1,w2,w3...wk
代表论文中每个词的索引,e1,e2,e3...ek
代表论文中每个实体的索引。词和实体是相互对应的。例如,一篇论文的标题为:
那么,标题词的索引可以是:
标题实体的索引可以是:
前两个实体索引为 10,表示这两个词对应同一个实体。词和实体的索引是从 1 到 n 和 m 进行哈希的,其中 n 和 m 分别代表不同词和实体的数量。
构建论文特征文件
构建知识图谱文件
接下来,我们需要构建知识图谱文件。知识图谱由三元组组成,每个三元组表示一个事实:
例如,一个三元组可以表示:
表示 COVID-19 是一种呼吸道疾病。
构建用户相关文件
接下来,我们需要准备用户相关文件。我们的第一个任务是用户到论文的推荐。对于每个用户,我们收集他/她引用的所有论文,并按时间顺序排列。然后,推荐任务可以被描述为:给定用户的引用历史,预测他/她将来会引用哪些论文。
构建 DKN 训练数据文件
DKN 模型需要以下几个文件作为输入:
例如:
例如:
DKN 将推荐任务视为一个二元分类问题。我们根据项目的流行度对负样本进行采样。
构建 item-to-item 推荐数据集
我们的第二个推荐场景是关于 item-to-item 推荐。给定一篇论文,我们可以推荐一系列相关的论文供用户引用。
这里我们使用监督学习方法来训练这个模型。每个实例是一个 的元组。Label = 1 表示这对论文高度相关;否则 label 将为 0。
正样本的构建方式如下:
总结
本文介绍了如何从 MAG 数据集构建 DKN 模型的训练数据。通过对论文、知识图谱和用户行为数据的处理,我们可以生成 DKN 模型所需的训练数据,并进一步进行模型训练和评估。
参考文献