微软 Recommenders：推荐系统实战宝典

引言

构建一个高效的推荐系统并非易事，需要对数据进行预处理、选择合适的算法、进行模型训练和评估，最终才能将其部署到生产环境。为了帮助开发者和研究人员更好地应对这些挑战，微软开源了 Recommenders 工具，并提供了一系列 Jupyter Notebook 示例和最佳实践，涵盖了推荐系统开发的完整流程。

示例概览

Recommenders 的示例 Notebook 按照功能和用途被组织在不同的目录下，具体如下表所示：

目录	是否支持本地运行	描述
00_quick_start	是	快速入门示例，演示如何在本地环境中使用推荐算法构建推荐系统。
01_prepare_data	是	数据准备示例，为不同的推荐算法准备和加载数据。
02_model_collaborative_filtering	是	协同过滤算法模型训练和评估示例，深入探讨算法原理和实现细节。
…	…	…

本地运行示例

大部分示例 Notebook 都可以在本地 Linux 机器上直接运行，只需按照说明正确设置环境即可。

注意： 某些示例可能需要异构计算实例，例如安装了 Spark 框架的 CPU 机器集群或配备 GPU 设备的机器。因此，建议在 Linux 数据科学虚拟机 (Ubuntu) 上运行这些 Notebook，因为该虚拟机预先配置了单节点 Spark 和/或 GPU 设备。

Azure 云端增强

为了提高大规模开发推荐系统的效率，部分示例 Notebook 还使用了 Azure 云产品和服务，例如：

Azure 机器学习服务: 用于训练、部署、自动化和管理机器学习模型的云服务，在示例中广泛用于超参数调整、指标跟踪和监控、计算资源扩展以及 Web 服务部署等任务。
Azure 数据科学虚拟机: 主要用作远程服务器，用户可以轻松配置本地和云环境以运行示例 Notebook。
Azure Cosmos DB: 用于存储数据，例如在模型部署示例中，将模型生成的推荐结果存储在 Cosmos DB 中以实现实时服务。
Azure Databricks: 主要用于在分布式计算环境中开发基于 Spark 的推荐系统，例如 Spark ALS 算法。
Azure Kubernetes 服务: 用于服务推荐模型或使用推荐结果为应用程序服务。

将现有 Notebook 提交到 Azure 机器学习

run_notebook_on_azureml 示例 Notebook 提供了一个框架，可以直接将现有 Notebook 提交到 Azure 机器学习计算目标。设置好计算目标并创建运行配置后，只需替换 Notebook 文件名即可直接提交 Notebook。

cfg = NotebookRunConfig(source_directory='../',
                            notebook='examples/00_quick_start/' + NOTEBOOK_NAME,
                            output_notebook='outputs/out.ipynb',
                            parameters={"MOVIELENS_DATA_SIZE": "100k", "TOP_K": 10},
                            run_config=run_config)

所有使用 store_metadata 记录的指标和参数都将作为跟踪指标存储在运行中。最初提交的 Notebook 将作为输出 Notebook out.ipynb 存储在 Azure 门户的输出选项卡中。

总结

微软 Recommenders 提供的示例 Notebook 为开发者和研究人员提供了一个宝贵的学习资源，可以帮助他们快速掌握构建高性能推荐系统的最佳实践。无论是本地运行还是借助 Azure 云平台，Recommenders 都能帮助您轻松构建个性化推荐体验。

引言

示例概览

本地运行示例

Azure 云端增强

将现有 Notebook 提交到 Azure 机器学习

总结

发表评论 取消回复

发表评论取消回复