内容包含的信息究竟比标题要复杂,基本思路应该和标题的分析是差未几的,但是也有差别,五花八门的多,也要有更复杂的算法。。先大体说一下他分析方法:随机截取随机长的字段,然后就行此字段前后内容的分析,假如当前页与引擎内容数据库中有相同字段的且前后段也相同的话,就会以为这个文章有抄袭,非原创的嫌疑,这个分析过程一般要重复几回,如果分析了10次,有9次在截取字段前后都能在已有内容数据库中有相同内容,再加上网站标题又相同,这样的话,这篇文章就会被认定为非原创了。http://www.yixiin.com/news/list-1831.html
http://www.yixiin.com/news/list-1839.html
http://www.yixiin.com/news/list-6925.html