断断续续,终于把 Yelper 推荐系统的 7 篇博客写完了。同时,两个相关的 Git 项目 Yelper DPPS and EDA 及 Yelper Web Console 也算暂告一段落。
虽然这个项目不大,但覆盖了数据预处理、模型训练、前端后端开发,算是整个开发流程比较完整的项目。另外,所用到的机器学习算法涉及了 KD-Tree、CNN、Word2Vec;数据库 MySQL、Neo4J(图数据库);搜索引擎 Elasticsearch。
想起之前之所以想做这样一个个人项目,是因为自己机器学习方面的经验不足,也想通过这个项目来加深自己对机器学习的理解。而选择 Yelp 数据集 作为数据来源在于其数据类型比较全面,如对商店的评价星数(stars)、评论文本、社交关系,这样方便我们进行多维度分析。
下边的思维导图是该项目博客以及 Git 项目的链接: