直接切入主题,TF-idf算法到底是如何计算的:
公式:
TF:词频
IDF:逆文本频率指数
TF-IDF=TF*IDF
我们举例说明,TF词频的意思,是指一个词出现在页面中的次数,如果一篇文章的总词语数是200,而“网站优化”这个词出现了4次,那么这个词频TF=4/200,也就是0.02。
而IDF也就是很文件频率,指这个词在多少页面出现过计数为N,文件总数计数为M,那么IDF=lg(M/N)。假设“网站优化”在2000个页面出现,总文件数为1亿,那么文件频率IDF=lg(100000000/2000)=4.69897,那么计算最后的TF-IDF=0.02*4.69897=0.0939794。
这只是一个判断一个页面的相关度的问题,而在SEO网站优化中,并不只是判断TF-IDF的值加分,我们需要一个识别度高的词来为页面加分。例如:搜索引擎收录一万亿个页面,应该说每个页面都会有“的、是、中、地、得”等等词,这些高频词也叫噪音词或停止词,搜索引擎会去除这些词,所以这些词的加分权重其实应该是0。计算公式:TF-IDF=log(1万亿/一万亿)=log1=0。
其实在搜索引擎检索中,计算权重的时候,会根据每个词分词来计算,例如:“SEO网站优化的技巧”这个词。
假设:SEO页面检索数位2000万,网站优化的检索数为1000万,技巧的检索数为50000万
搜索引擎索引总数假设为100亿。
SEO在www.ruihess.com这个网站中页面(页面总词数400)出现8次,网站优化出现10次,技巧出现16次。
那么各自的词频
TF(SEO)=8/400=0.02,
TF(网站优化)=10/400=0.025