- 课程名称:网络搜索原理
- 教师:陈光 (@爱可可-爱生活)
- 时间地点:周五上午 8:00-9:35 教三-233
本课程旨在通过讲解+实战,理解搜索引擎背后的基本技术原理,用进化视角看技术更迭,培养搜索思维,开阔解决相关问题的思路。
日期 | 内容 | 视频 | 讲义&代码 | 答疑 |
---|---|---|---|---|
2021.9.10 | 第1讲、从四点“心法”开始 摘要:四点心法:内外有别、终局思维、置身其中、少即是多,几点学习建议,本学期特色 ![]() |
V1 | L1 | Q1 |
2021.9.17 | 第2讲、简单关键词检索实现 摘要:用xPath实现新闻标题数据快速采集、用grep实现简单关键词过滤、Python编程实现简单关键词检索 ![]() |
V2 | L2 C2 | Q2 |
2021.9.24 | 第3讲、简单搜索的性能分析与优化 摘要:通过简单搜索实现的迭代优化过程,体会性能优化的考虑角度和实现技巧。 ![]() |
V3 | L3 C3 | |
2021.10.8 | 第4讲、布尔查询的实现 摘要:布尔查询的实现与改进。 ![]() |
V4 | L4 C4 | |
2021.10.15 | 第5讲、文档排序 摘要:文档打分和排序的实现与改进。 |
V5 | C5 | |
2021.10.22 | 第6讲、向量空间模型的改进 摘要:TF-IDF的实现与改进,BM25,程序性能的改进策略。 |
V6 | C6 | |
2021.10.22 | 第7讲、邻接查询与拼写检查 摘要:英文、数字串的提取与索引,轮换索引的设计与实现。 |
V7 | C7 | |
2021.11.5 | 第8讲、重复检测与相似搜索 摘要:基于n-gram的KShingle去重方法,基于MinHash、SimHash的重复检测。 |
V8 | C8 |