最近一段,赶集网在央视的广告很疯狂,广告创意确实吸引人,不过那头驴子太抢风头,结果造成了很多人都记住了驴子,竟然没有记住赶集网,甚至把赶集网记成了“赶驴网”,于是“赶驴网”这个关键词火了,每天搜索量上千,甚至一度超过了一万,我们看一下百度指数: 最早发现这个关键词火起来的是王建硕,在2006年的时候,百姓网与我合作,那事还叫客齐集,我给他们做顾问,他们的团队人虽然不多,但是执行力非...
对于一篇待分类文档,应用m元分类算法通常得到多个类别。一般情况下都要求从这些候选类别中选择部分类别为该文档的最终分类结果。这个过程使用的方法通常被称为阈值策略。下面简单介绍三个比较常见的阈值策略。 1、位置截尾法(rank-based thresholding,记为RCut)假设分类系统预先定义的类别数为m。整数k大于1并且小于m。对于每一个待分类的文档D,分类系统都返回一个长为m的候选类...
对索引网页库信息进行预处理包括网页分析和建立倒序文件索引两部分,中文自动分词是网页分析的前提。文档由被称作特征项的索引词(词或者字)组成,网页分析是将一个文档表示为特征项的过程。在提取特征项时,中文又面临了与英文处理不同的问题。中文信息和英文信息有一个明显的差别:英语单词之间用空格分隔;而在中文文本中,词与词之间没有天然的分隔符,中文词汇大多是由两个或两个以上的汉字组成的,并且语句是连续书写的。这...