什么是网络爬虫？网络爬虫如何工作？

作者： Rishabh Kandari 译者： LCTT geekpi

| 2018-02-20 14:42

作为一个狂热的互联网人，你在生活中一定遇到过网络爬虫Web Crawler这个词。那么什么是网络爬虫，谁使用网络爬虫？它是如何工作的？让我们在本文中讨论这些。

什么是网络爬虫？

网络爬虫Web Crawler也被称为网络蜘蛛web-spider是一个在互联网中访问不同网站的各个页面的互联网软件或者机器人。网络爬虫从这些网页中检索各种信息并将其存储在其记录中。这些抓取工具主要用于从网站收集内容以改善搜索引擎的搜索。

谁使用网络爬虫？

大多数搜索引擎使用爬虫来收集来自公共网站的越来越多的内容，以便它们可以向用户提供更多相关内容。

许多商业机构使用网络爬虫专门搜索人们的电子邮件地址和电话号码，以便他们可以向你发送促销优惠和其他方案。这基本上是垃圾邮件，但这是大多数公司创建邮件列表的方式。

黑客使用网络爬虫来查找网站文件夹中的所有文件，主要是 HTML 和 Javascript。然后他们尝试通过使用 XSS 来攻击网站。

网络爬虫如何工作？

网络爬虫是一个自动化脚本，它所有行为都是预定义的。爬虫首先从要访问的 URL 的初始列表开始，这些 URL 称为种子。然后它从初始的种子页面确定所有其他页面的超链接。网络爬虫然后将这些网页以 HTML 文档的形式保存，这些 HTML 文档稍后由搜索引擎处理并创建一个索引。

网络爬虫和 SEO

网络爬虫对 SEO，也就是搜索引擎优化Search Engine Optimization有很大的影响。由于许多用户使用 Google，让 Google 爬虫为你的大部分网站建立索引非常重要。这可以通过许多方式来完成，包括不使用重复的内容，并在其他网站上具有尽可能多的反向链接。许多网站被认为是滥用这些技巧，最终被引擎列入黑名单。

robots.txt

robots.txt 是爬虫在抓取你的网站时寻找的一种非常特殊的文件。该文件通常包含有关如何抓取你的网站的信息。一些网站管理员故意不希望他们的网站被索引也可以通过使用 robots.txt 文件阻止爬虫。

总结

爬虫是一个小的软件机器人，可以用来浏览很多网站，并帮助搜索引擎从网上获得最相关的数据。

via: http://www.theitstuff.com/web-crawler-web-crawlers-work

作者：Rishabh Kandari 译者：geekpi 校对：wxy

本文由 LCTT 原创编译，Linux中国荣誉推出

最新评论

从 2025.1.15 起，不再提供评论功能

译自：theitstuff.com 作者： Rishabh Kandari
原创：LCTT https://linux.cn/article-9364-1.html 译者： geekpi

本文由 LCTT 原创翻译，Linux 中国首发。也想加入译者行列，为开源做一些自己的贡献么？欢迎加入 LCTT！
翻译工作和译文发表仅用于学习和交流目的，翻译工作遵照 CC-BY-SA 协议规定，如果我们的工作有侵犯到您的权益，请及时联系我们。
欢迎遵照 CC-BY-SA 协议规定转载，敬请在正文中标注并保留原文/译文链接和作者/译者等信息。
文章仅代表作者的知识和看法，如有不同观点，请楼下排队吐槽 :D

上一篇：菜鸟们，通过这几个例子，包你学会 uptime 命令的用法下一篇：在 Linux 中如何编写基本的 udev 规则

LCTT 译者

geekpi 💎💎💎💎

共计翻译： 2095.5 篇 | 共计贡献： 3750 天

贡献时间：2013-10-25 -> 2024-01-31

访问我的 LCTT 主页 | 在 GitHub 上关注我

@-webkit-keyframes spin{100%{-webkit-transform:rotate(360deg);}}@keyframes spin{100%{transform:rotate(360deg);}}

什么是网络爬虫？网络爬虫如何工作？