想象一下:你家书房有 10 亿本书,你想找一句“生活就像一盒巧克力”,但你既不知道是哪本书,也不知道在第几页。
如果你自己一本一本翻,大概要翻到下辈子。
这时候你需要一个超级厉害的图书管理员:你只要轻声说一句“生活就像一盒巧克力”,他立刻就能告诉你——
《阿甘正传》,第 143 页,左边那一栏,第三行!
搜索引擎就是互联网的这个超级图书管理员。
互联网上现在有大概 600 亿到 1000 亿个网页(没人能数得清),它们每天都在疯狂增加、删除、修改。
搜索引擎的任务就是:把整个互联网的书架全部记在脑子里,然后在你眨眼的 0.3 秒内,给你最靠谱的答案。
它是怎么做到的?(用最不技术的方式说)
搜索引擎其实像一只永不睡觉的蜘蛛(真的就叫“网络蜘蛛” Spider):
-
它先到处爬
从一个网页开始,顺着上面的所有链接,像滚雪球一样爬到下一个、下一个……
24 小时不停地爬,把全世界能爬到的网页全部复制一份回来,存在自己家巨大的仓库里。 -
它把每本书拆成字
爬回来的网页不会原封不动地堆着,它会像拆乐高一样,把网页拆成一个个词(中文叫“分词”)。
比如看到一句“北京烤鸭最好吃的是全聚德”,它会记下来:
– 北京烤鸭 → 出现在这个页面
– 全聚德 → 也出现在这个页面
然后给每个词建一个超级长的“通讯录”:这个词到底出现在哪些网页? -
它还会给网页打分
不是所有网页都一样靠谱。
它会偷偷观察:
– 这个网页有多少人点?
– 有多少重要网站链接到它?(就像学术论文引用)
– 内容是不是经常更新?
– 用户看完是不是马上就跑了?(说明不靠谱)
综合几百个信号,给每个网页悄悄打个“权威分”。 -
你一搜,它立刻算答案
你在百度、Google 输入“北京最好的烤鸭”,
它瞬间:
- 找出所有包含“北京”“烤鸭”“最好”这些词的网页
- 按刚才打的权威分 + 相关度排序
- 前十个最靠谱的扔给你
整个过程不到半秒!
几个你平时见到的搜索引擎家族成员
- Google:全世界最大的图书管理员,书最多、脑子最聪明,但国内用不了
- 百度:中国最大的图书管理员,中文内容收得最全
- 必应(Bing):微软家的,图片和视频搜索特别漂亮
- DuckDuckGo:隐私狂魔,坚决不追踪你
- 搜狗、360:也都是国内玩家,各有特色
搜索系统有四项主要职责:
-
爬虫:遍历网络并解析所有网站内容的过程。这是一项庞大的任务,因为 可用的。


