协同过滤的历史-协同过滤发展历程
猜您喜欢::不锈钢烤漆护栏多少钱一平方-不锈钢烤漆护栏单价 什么是aqi指数-空气质量AQI指数 美术色彩艺考培训-美术色彩专业艺考培训 智者见智的上一句-智者见智的上一句 英语四级成绩下载(英语四级成绩下载) 澳洲留学大概需要给中介多少钱(澳洲留学中介费用约1万) 欧美留学艺术生-欧美留学艺术生关键词 金力手机多少钱-金力手机售价多少 假四六级证书被中石油查嘛(假四六级中石油查) 九江学院很恐怖(九江学院很吓人)
互联网那几年,搞艺术的时候实际上挺压抑的。大家总认定千篇一律的网页和千篇一律的推荐列表忒无聊了,便有人提了一个概念,叫协同过滤。这东西听着像科幻片里的技术,但在 2003 到 2008 年的那个节点,它可是真正帮大量无聊的日子找到了点意思。 最早的雏形实际上挺好办的。
那时候有个叫 SMG(SuggestMeGood)的东西,最早能提 10 个人,后来被改得有点夸张,能提 500 个。
这玩意儿早期的逻辑就是“人对了,就推这个人”。
比如我翻了某个好看的书,系统就会把这本书推荐给我,就连可能连作者的名字都带上,要么推荐我去看看那个作者写的另一本书。
那时候的推荐,本质上就是“既然你喜爱这个,你也喜爱那个”。
这种逻辑好办粗暴,但也充足致命——它忒依赖你之前的输入了。
要是你最近没干啥,系统就彻底不知道你是哪位了。 不过,到了后来,这个逻辑启动有了大转折。大家认定光靠那会儿的行为忒死板了,要是不结合历史数据,如何算得准呢?便有人启动玩那套“用户 - 东西”矩阵的算法。
这就好比你在一个庞大的 Excel 表里找东西,左边一列是用户,右边一列是东西,中间那个交叉点就是你们有没有互动的记录。 这个算法有个挺直观的优势。假设你是用户 A,你看了 100 本书,你看完了 50 本,没看完 50 本。
这算法就会告诉你:你对这本书的偏好评价是“好”,对那本“一般”,对那本“不好”。你能够把这些数据插到那个庞大的矩阵表格里,用数学模型算出概率。
比方说,“要是某某用户看了 100 本书,且看了 50 本,其中 30 本是用户 A 看过的那些,那么他看某本书的概率是多少?”这就把隐性的喜好变成了显性的数据流。 最让人琢磨不透的就是它如何“猜”出你没看过书。出于有时候你根本没见过这本书,要么你还没看过这本书,但在系统眼里,那本书已经在你关切的圈子里了。它会把所有相似片的人,要么所有相似作者的人,堆在一起。
比如“某用户 A 爱看某书 B,那用户 A 的哥们儿 C 挺可能也爱看 B";要么“某用户 A 读过某书 B,那另一位用户 D 挺可能也读过 B"。
只要把这些人找齐,哪怕只有一个人没看过,系统也能算出概率,然后“神机妙算”地把这本书推给你。 这就带来了一个挺有趣的现象。你会发现,这种推荐有时候准性会比较高。
比如你刚买了一张 DVD,系统立马把你喜爱的电影排一排。但这往往只是运气好,算法只是把那些和你票选的人放在一起。真正的突破,往往是在“人机博弈”里找到的。 这时候,有个叫 Tribe 的算法启动冒头了。它不再单纯依赖数学概率,而是引入了“群体共识”。它想的是:要是 A 和用户 B 都喜爱某本书,那 A 和用户 B 就是“部落”成员。
要是大家都喜爱这本书,那这本书就是该用户该看的。
这就把单纯的“行为预测”变成了“社会心理预测”。当算法学会去开会,去投票,去算出大家默契的时候,它就不再是冷冰冰的机器,更像是一个懂人情世故的推客。 到了后来,这种思想又演变成了目前流行的过滤推荐,比如大众点评那种“猜你喜爱”的页面。它不再局限于你点过的东西,而是把你所在的社区、和你聊过的人、和你一起活跃在一起的人,全塞进一个框里。
哪怕你那会儿一周只看了三本书,系统也会基于你所在的社区氛围,把你喜爱的电影、音乐、游戏全列出来。
这种推荐彻底打破了“行为拍板一切”的枷锁,它启动理解人的复杂性和群体心理。 自然,这种技术也带来了不少难题。最大的陷阱就是“信息茧房”。当你算法懂了你喜爱的东西,它也只会给你推送那些东西。久而久之,你的视野就变得越来越窄,就连让你误当作喜爱电影的人就一定喜爱音乐,喜爱科幻的人就一定喜爱恐怖小说。
这种“熟悉感”一旦建立,就挺难再被打破。 再往后看,目前的协同过滤已经变得更加智能化。它不再只是基于静态的标签或好办的行为记录,而是结合了你手机里的所有数据,包含你刚刚看的视频、你搜索过的难题、你点赞的个人主页,就连是你的地理位置。它试图理解你此刻的想法,而不是只是预测你那会儿的行为。
这就像是一个超级智慧的聊天机器人,它知道你是想找个松快的周末,还是想找个繁华的聚会,或是想找个深度的聊聊,进而精准地匹配最适合你的内容。 总的来说,协同过滤从最初那个只会根据你“看了啥”来推你“看啥”的好办工具,进化成了能读懂你“想啥”、“你是哪位”、“和你在一起的人是啥”的复杂系统。它别看没能彻底消除信息茧房,但确实在挺大程度上下降了信息获取的门槛,让每个人都能省事找到自己想看的作品。只不过,在这个算法越来越精妙的今天,我们也在思索:在这个由数据驱动的世界里,我们还能保留多少真的喜好?
相关标签:
