第二章网络爬虫技能概述-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

第二章网络爬虫技能概述

阅读量：4949 次

发布时间：2019-06-11

本文共 836 字，大约阅读时间需要 2 分钟。

2.1 网络爬虫技能概述图

2.2 搜索引擎核心

爬虫与搜索引擎关系是密不可分的，既然提到网络爬虫，就免不了提到搜索引擎。

图2-2所示为搜索引擎的核心工作流程

首先，搜索引擎会利用爬虫模块去爬取互联网中的网页，然后将爬取到的网页存储

到原始数据库中。爬虫模块主要包括控制器和爬行器，控制器主要进行爬行的控制，

爬行器则负责具体爬行任务。

然后，会对原始数据库中的数据进行索引，并存储到数据库中。

当用户检索信息时，会通过用户交互接口输入对应的信息，用户交互接口相当于

搜索引擎的输入框，输入完成之后，由检索器进行分词等操作，检索器会从索引

数据库中获取数据进行相应的检索处理。

用户输入对应信息的同时，会将用户的行为存储到用户日志数据库中，比如用户的

IP地址、用户所输入的关键词等等。随后，用户日志数据库中的数据会由日志分析器

进行处理。日志分析器会根据大量的用户数据去调整原始数据库和索引数据库，改变

排名结果或进行其他操作。

附加解释检索与索引

检索是一种行为，而索引是一种属性。比如一家超市，里面有大量的商品，为了能够

快速找到这些商品，我们将这些商品进行分组，比如有日常用品类商品，饮料类商品、

服装类商品等组别，此时，这些商品的组名我们称之为索引，索引由检索器控制。

如果有一个用户想要找到某一个商品，那么需要在超市的大量商品中需找，这个

过程我们称之为检索。如果有一个好的索引，则可以提高检索效率；若没有索引，

则检索效率会很低。比如，一个超市里面的商品如果没有进行分类，那么用户要在

海量的商品中寻找某一种商品，则会比较费力。

2.3　用户爬虫的那些事儿

用户爬虫是网络爬虫中的一种类型。所谓用户爬虫，指的是专门用来爬取互联网中

用户数据的一种爬虫。由于互联网中的用户数据信息，相对来说是比较敏感的数据

信息，所以，用户爬虫的利用价值也相对较高。

转载于:https://www.cnblogs.com/papapython/p/7457129.html

你可能感兴趣的文章

jqGrid 是一个用来显示网格数据的jQuery插件

windows 下 gcc/g++ 的安装

登陆后跳转到指定页

[前端插件]为自己的博客增加打赏功能

测试阶段的工作进度

《将博客搬至CSDN》

ExtJS 刷新后，默认选中刷新前最后一次选中的节点

实现一个简单的shell（2）

Window 常用命令

SMTP协议学习笔记

ubuntu18.04下安装eclipse jee

在ASP.NET MVC中使用Web API和EntityFramework构建应用程序

iOS OpenGL ES简单绘制三角形

.NET Core 中正确使用 HttpClient 的姿势

【转】Python之文件读写

C# 泛型集合

new和声明的不同

动态链接库的隐式和显式调用

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-12-24 11:34:46 当前IP: 18.223.241.235 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我