SVM回顾
支持向量机(SVM)的一大特点是最大化间距(max margin)。对于如上图的二分类问题,虽然有很多线可以将左右两部分分开,但是只有中间的红线效果是最好的,因为它的可活动范围(margin)是最大的,从直观上来说很好理解。
Continue readingSVM回顾
支持向量机(SVM)的一大特点是最大化间距(max margin)。对于如上图的二分类问题,虽然有很多线可以将左右两部分分开,但是只有中间的红线效果是最好的,因为它的可活动范围(margin)是最大的,从直观上来说很好理解。
Continue reading刚坐上去北京的列车,就收到了妈妈的微信语音:霖,早上收拾东西怎么忘了带上我给你洗好的鞋呀。我这才想起早上妈妈把洗好的鞋和叠好的衣服放在我房间,我却忘了带鞋。
后来和爸妈在群里聊了起来。当我问爸爸什么时候返回学校时,他却说前天突然请假回家惹老板不高兴了,可能要被炒鱿鱼。是,老爸在那个学校当老师十几年了,我平时老数落他当老师工资那么低,为什么不改行,可突然听到这个消息,心里却不是滋味。
其实老爸没必要请假回来的。前几天我发脾气,老爸好像真的决定转行搞种植业了,托我在淘宝买了好多枸杞树,自己带回了五十棵脐橙树苗,还准备去某个地方考察什么药材。
离家前一天,妈妈特地跑到县城买了好多排骨回来,还煮了十个土鸡蛋要我带着路上吃。老爸买了好多苹果、香蕉、猕猴桃要我带着路上吃。今天早上收拾行李的时候,从来不动手的爸爸,也抢着往我包里塞各种牛奶和水果。 Continue reading
现在是2016年2月4日,距离农历新年不到4天,结束了半年的国科大研一生活,躺在被窝里,松了一口气......
这学期选修了卜老师的算法课,都说这课是神课,上过之后果然是神课。同样是算法课,别人12月底就考完了,我们要1月底才考试。
本课程主要讲了以下几个专题:
至此,整个新闻搜索引擎构建完毕,总体效果令人满意,不过还是有很多可以改进的地方。下面总结一下本系统的优点和不足。 Continue reading
前几个博客已经介绍完搜索引擎的所有功能,为了实现更好的用户体验,需要一个web界面。这一部分是另一个队员做的,我这里借用他的代码。
我们利用开源的Flask Web框架搭建了展示系统,搜索引擎只需要两个界面,一个是搜索界面,另一个是展示详细新闻的页面(实际搜索引擎没有这个页面)。编写好这两个模板页面并调用前面给出的接口,得到数据,展示出来就可以。 Continue reading
虽然主要的检索功能实现了,但是我们还需要一个“推荐阅读”的功能。当用户浏览某条具体新闻时,我们在页面底端给出5条和该新闻相关的新闻,也就是一个最简单的推荐系统。
目前正是所谓的“大数据”时代,数据量多到难以计数,怎样结构化的存储以便于分析计算,是当前的一大难题。上一篇博客我们简单抓取了1000个搜狐新闻数据,搜索的过程就是从这1000个新闻中找出和关键词相关的新闻来,那么怎样快速搜索呢,总不可能依次打开xml文件一个字一个字的找吧,这时就需要借助倒排索引这个强大的数据结构。 Continue reading