Large-Scale Interactive Recommendation with Tree-Structured Policy Gradient AAAI2019 阅读笔记_tpgr-程序员宅基地

法一：
每一个样本点视为一个簇；
计算各个簇之间的距离，最近的两个簇聚合成一个新簇；
重复以上过程直至最后只有一簇。
分割法（本文使用）：
先将数据点分为c个聚类
再将分好的数据点继续划分为更小的聚类
直到每个子聚类仅与一个点相关联。

Introduction

We propose a Tree-structured Policy Gradient Recommendation (TPGR) framework which achieves high efficiency and high effectiveness at the same time.
a balanced hierarchical clustering tree is built over the items and picking an item is thus formulated as seeking a path from the root to a certain leaf of the tree, which dramatically reduces the time complexity in both the training and the decision making stages.
We utilize policy gradient technique to learn how to make recommendation decisions so as to maximize long-run rewards.
针对IRS(Interactive recommender systems)的算法及缺点：

MAB：假设用户兴趣在推荐过程中不变
RL：无法处理大规模离散空间问题
Wolpertinger Architecture[1]：一种针对动作空间来说复杂度为次线性而且在动作空间上能较好泛化的方法（基于actor-critic框架，通过DDPG来训练参数）；存在学习的连续动作和实际期望的离散动作之间的不一致性的问题。

[1] Dulac-Arnold G, Evans R, van Hasselt H, et al. Deep reinforcement learning in large discrete action spaces[J]. arXiv preprint arXiv:1512.07679, 2015.

Methods

State. A state s is defined as the historical interactions between a user and the recommender system, which can be encoded as a low-dimensional vector via a recurrent neural network (RNN)
Action. An action a is to pick an item for recommendation
Reward. all users interacting with the recommender system form the environment that returns a reward r after receiving an action a at the state s, which reflects the user’s feedback to the recommended item.
Transition. As the state is the historical interactions, once a new item is recommended and the corresponding user’s feedback is given, the state transition is determined.

Tree-structured Policy Gradient Recommendation Intuition for TPGR

在这里插入图片描述
每个叶节点都映射到item，每个非叶节点与policy network相关联
给定一个state，在policy network的引导下，从根节点到叶节点进行自顶向下的移动，并向用户推荐相应的item

Balanced Hierarchical Clustering over Items

在这里插入图片描述

平衡树：对于每个节点，其子树的高度最多相差1。
每个非叶节点具有相同数量的子节点，表示为c。（叶节点的父节点除外）
通过聚类算法以一组向量（这里我理解的是所有item的向量）和整数c为输入，并将向量分成c个平衡的聚类；通过重复应用聚类算法直到每个子聚类只与一个item相关联，构建了一个平衡的聚类树。
采用的聚类方法：

PCA-based(better)
K-means-based

采用的item向量表示方式：

Rating-based：用评分矩阵对应列表示（后续实验表明这是最佳表示方法）；
VAE-based：使用变分自编码器降维；
MF-based：使用矩阵分解表示item

Architecture of TPGR

status point指示当前位于哪个节点，选择item就变成将status point从根节点移到某个叶子节点。
树的非叶节点与policy network相关联（全连接层+激活单元）。
status point所在的节点v的policy network以当前state为输入，输出v在子节点上的概率分布，表示移动到v每个子节点的概率。

State Representation

输入为时间t前推荐的item ids以及相应的rewards，其中每个item id都被映射为一个embedding vector（可以端到端训练，也可以使用MF提前训练好），每个reward映射为一个one-hot向量。
user_status表示一些统计信息，如在时间步长t之前的positive reward、negative reward 、连续的positive reward和negative reward的数量
采用SRU(simple recurrent unit)编码，得到state

Experiments and Results

数据集：
将评分大于3视为positive reward，其余视为negative reward
纵坐标为连续positive(negative) reward的平均分。
表明用户以前消费的满意(令人失望)的项目越多，她获得的快乐(不愉快)就越多，因此，她倾向于对当前项目给出更高(更低)的评级

结果：

在这里插入图片描述

Time Comparison

在这里插入图片描述
虽然DDPG-KNN（k=1）时间复杂度低，但是推荐性能很差

Influence of Clustering Approach & Tree Depth

在这里插入图片描述
结果表明：PCA聚类方式，rating-based向量表示方式，深度为2时，效果最好
原因分析：

Rating-based保留了用户和item之间的所有交互信息，而VAE和MF的表示都是低维的，在降维后保留的信息比基于评分的表示少。
K-means方法对初始点的选择以及距离函数度量都有要求，不稳定。

本文链接：https://blog.csdn.net/strawberry47/article/details/116697266

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

linux devkmem 源码,linux dev/mem dev/kmem实现访问物理/虚拟内存-程序员宅基地

文章浏览阅读451次。dev/mem: 物理内存的全镜像。可以用来访问物理内存。/dev/kmem: kernel看到的虚拟内存的全镜像。可以用来访问kernel的内容。调试嵌入式Linux内核时，可能需要查看某个内核变量的值。/dev/kmem正好提供了访问内核虚拟内存的途径。现在的内核大都默认禁用了/dev/kmem，打开的方法是在 make menuconfig中选中 device drivers --> ..._dev/mem 源码实现

vxe-table 小众但功能齐全的vue表格组件-程序员宅基地

文章浏览阅读7.1k次，点赞2次，收藏19次。vxe-table，一个小众但功能齐全并支持excel操作的vue表格组件_vxe-table

（开发）bable - es6转码-程序员宅基地

文章浏览阅读62次。参考：http://www.ruanyifeng.com/blog/2016/01/babel.htmlBabelBabel是一个广泛使用的转码器，可以将ES6代码转为ES5代码，从而在现有环境执行// 转码前input.map(item => item + 1);// 转码后input.map(function (item) { return item..._让开发环境支持bable

FPGA 视频处理 FIFO 的典型应用_fpga 频分复用视频-程序员宅基地

文章浏览阅读2.8k次，点赞6次，收藏29次。摘要：FPGA视频处理FIFO的典型应用，视频输入FIFO的作用，视频输出FIFO的作用，视频数据跨时钟域FIFO，视频缩放FIFO的作用_fpga 频分复用视频

R语言：设置工作路径为当前文件存储路径_r语言设置工作目录到目标文件夹-程序员宅基地

文章浏览阅读575次。【代码】R语言：设置工作路径为当前文件存储路径。_r语言设置工作目录到目标文件夹

background 线性渐变-程序员宅基地

文章浏览阅读452次。格式：background: linear-gradient(direction, color-stop1, color-stop2, ...);<linear-gradient> = linear-gradient([ [ <angle> | to <side-or-corner>] ,]? &l..._background线性渐变

随便推点

【蓝桥杯省赛真题39】python输出最大的数中小学青少年组蓝桥杯比赛算法思维python编程省赛真题解析-程序员宅基地

文章浏览阅读1k次，点赞26次，收藏8次。第十三届蓝桥杯青少年组python编程省赛真题一、题目要求（注：input（）输入函数的括号中不允许添加任何信息）1、编程实现给定一个正整数N，输出正整数N中各数位最大的那个数字。例如:N=132，则输出3。2、输入输出输入描述：只有一行，输入一个正整数N输出描述：只有一行，输出正整数N中各数位最大的那个数字输入样例：

网络协议的三要素-程序员宅基地

文章浏览阅读2.2k次。一个网络协议主要由以下三个要素组成：1.语法数据与控制信息的结构或格式，包括数据的组织方式、编码方式、信号电平的表示方式等。2.语义即需要发出何种控制信息，完成何种动作，以及做出何种应答，以实现数据交换的协调和差错处理。3.时序即事件实现顺序的详细说明，以实现速率匹配和排序。不完整理解：语法表示长什么样，语义表示能干什么，时序表示排序。转载于:https://blog.51cto.com/98..._网络协议三要素csdn

The Log: What every software engineer should know about real-time data's unifying abstraction-程序员宅基地

文章浏览阅读153次。主要的思想，将所有的系统都可以看作两部分，真正的数据log系统和各种各样的query engine所有的一致性由log系统来保证，其他各种query engine不需要考虑一致性，安全性，只需要不停的从log系统来同步数据，如果数据丢失或crash可以从log系统replay来恢复可以看出kafka系统在linkedin中的重要地位，不光是d..._the log: what every software engineer should know about real-time data's uni