本文是LLM系列文章,针对《InteraRec: Screenshot Based Recommendations Using Multimodal Large Language Models》的翻译。
摘要
网络日志由详细描述用户在任何网站上的活动的记录组成,提供了对用户偏好、行为和兴趣的宝贵见解。许多推荐算法采用协作过滤、基于内容的过滤和混合方法等策略,利用通过这些博客挖掘的数据向用户提供个性化推荐。尽管这些博客中有丰富的信息,但从中识别和提取相关信息和关键特征需要进行广泛的工程工作。数据的复杂性也对解释提出了挑战,尤其是对非专家来说。在这项研究中,我们引入了一个复杂的交互式推荐框架,称为InteraRec,它与完全依赖博客生成推荐的传统方法不同。InteraRec框架在用户浏览网站时捕捉网页的高频屏幕截图。利用最先进的多模态大型语言模型(MLLM),它通过基于预定义的关键字生成文本摘要,从这些屏幕截图中提取对用户偏好的有价值的见解。随后,LLM集成优化设置利用此摘要生成量身定制的建议。此外,我们探索将基于会话的推荐系统集成到InteraRec框架中,旨在提高其整体性能。最后,我们策划了一个新的数据集,其中包括亚马逊网站上产品网页的截图,用于验证InteraRec框架。详细的实验证明了InteraRec框架在提供针对个人用户偏好的有价值的个性化建议方面的有效性。