导航菜单
首页 >  信息检索怎么考试  > 山东大学软件学院信息检索(考试)

山东大学软件学院信息检索(考试)

2020-2021年度山东大学软件学院信息检索考试 开学的时候上这门课时老师说很多同学都觉得这门课程难(范围广且多,不过这倒是符合信息检索的定义“融合了~~~的综合学科”,哈哈哈),最终期末考试是“贝多芬(背多分)”,纯记忆力考试。写这个回忆版也耗费了我巨大的记忆力,我如何记得住这么多题(无它,答完后还剩50分钟,背就完了),如果我考前不喝红牛或许还记不住这么多题。复习的时候获得了学长的回忆版,可惜没有填空题,传承“传统”也就有了这个回忆版,话不多说,开始我的回忆…… 考试时间:2020年12月22日 14:00-16:00

保证所有题目顺序的正确性

去年题(2019-2020):https://download.csdn.net/download/qq_40422851/12054761

一、填空题(每空1分,共38分) 信息检索实质上融合了文本及多媒体检索、数据挖掘、_____ 和 ______ 的综合学科。信息检索技术可以解决互联网上的 _____ 问题。爬虫是一种 _____ 程序。爬虫从一个或若干个网页的URL开始,抽取URL放入 _____ 中。爬虫可以采用 _____ 判重。爬虫的搜索策略有 _____ 和 _____ 。爬虫礼貌性体现在 _____ 。使用python语言中的Pandas模块里的 _____ 函数,可以直接提取网页中的表格。搜索引擎的主要组成部分为:爬虫和爬取、_____ 、搜索词处理、排序。搜索引擎的核心数据结构为 _____ 。消除停用词的方法: _____ 和 _____。_____ 在一般情况下,将多个派生词合并在一起。基于词典的分词方法,也叫“ _____ ” 法,根据扫描方向,匹配策略有 _____ 和 _____ 。布尔模型建立在 _____ 和 _____ 的基础上。精确的Top K搜索的加速方法有(1)_____ ; (2) _____ ;(3)_____ 。L2R中的文档方法损失函数评估 _____ 。PageRank是基于 _____ 的回归关系来判定所有网页的重要性。HITS算法中,每个网页计算两个值:_____ 和 _____ 。SVD也就是 _____ ,可以用于 _____ 。BM25由三个部分组成: _____ 、_____ 和 _____ 。词的向量表示有 _____ 和 _____ 。用于大量文档查重的局部敏感哈希算法有 _____ 和 _____ 。形状的描述符大体可以分为两大类,基于 _____ 的和基于 _____ 的。 二、名词解释(每个6分,共30分) 正则表达式图像BoW统计语言模型pLSALBR 三、简答题(每个8分,共32分) 简述向量空间模型及其特点什么是HMM?简述HMM用于中文分词的方法简述信息检索评价的主要指标网站反爬虫的方法有哪些?应对策略是什么?

相关推荐: