博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
第二章 网络爬虫技能概述
阅读量:4949 次
发布时间:2019-06-11

本文共 836 字,大约阅读时间需要 2 分钟。

2.1 网络爬虫技能概述图

2.2 搜索引擎核心
爬虫与搜索引擎关系是密不可分的,既然提到网络爬虫,就免不了提到搜索引擎。
图2-2所示为搜索引擎的核心工作流程
首先,搜索引擎会利用爬虫模块去爬取互联网中的网页,然后将爬取到的网页存储
到原始数据库中。爬虫模块主要包括控制器和爬行器,控制器主要进行爬行的控制,
爬行器则负责具体爬行任务。
然后,会对原始数据库中的数据进行索引,并存储到数据库中。
当用户检索信息时,会通过用户交互接口输入对应的信息,用户交互接口相当于
搜索引擎的输入框,输入完成之后,由检索器进行分词等操作,检索器会从索引
数据库中获取数据进行相应的检索处理。
用户输入对应信息的同时,会将用户的行为存储到用户日志数据库中,比如用户的
IP地址、用户所输入的关键词等等。随后,用户日志数据库中的数据会由日志分析器
进行处理。日志分析器会根据大量的用户数据去调整原始数据库和索引数据库,改变
排名结果或进行其他操作。
附加解释检索与索引
检索是一种行为,而索引是一种属性。比如一家超市,里面有大量的商品,为了能够
快速找到这些商品,我们将这些商品进行分组,比如有日常用品类商品,饮料类商品、
服装类商品等组别,此时,这些商品的组名我们称之为索引,索引由检索器控制。
如果有一个用户想要找到某一个商品,那么需要在超市的大量商品中需找,这个
过程我们称之为检索。如果有一个好的索引,则可以提高检索效率;若没有索引,
则检索效率会很低。比如,一个超市里面的商品如果没有进行分类,那么用户要在
海量的商品中寻找某一种商品,则会比较费力。
2.3 用户爬虫的那些事儿
用户爬虫是网络爬虫中的一种类型。所谓用户爬虫,指的是专门用来爬取互联网中
用户数据的一种爬虫。由于互联网中的用户数据信息,相对来说是比较敏感的数据
信息,所以,用户爬虫的利用价值也相对较高。

转载于:https://www.cnblogs.com/papapython/p/7457129.html

你可能感兴趣的文章
jqGrid 是一个用来显示网格数据的jQuery插件
查看>>
windows 下 gcc/g++ 的安装
查看>>
登陆后跳转到指定页
查看>>
[前端插件]为自己的博客增加打赏功能
查看>>
测试阶段的工作进度
查看>>
《将博客搬至CSDN》
查看>>
ExtJS 刷新后,默认选中刷新前最后一次选中的节点
查看>>
实现一个简单的shell(2)
查看>>
Window 常用命令
查看>>
SMTP协议学习笔记
查看>>
ubuntu18.04下安装eclipse jee
查看>>
在ASP.NET MVC中使用Web API和EntityFramework构建应用程序
查看>>
iOS OpenGL ES简单绘制三角形
查看>>
.NET Core 中正确使用 HttpClient 的姿势
查看>>
【转】Python之文件读写
查看>>
ACM-栈
查看>>
C# 泛型集合
查看>>
new和声明的不同
查看>>
Servlet
查看>>
动态链接库的隐式和显式调用
查看>>