标签:网络爬虫 - MBA智库资讯

　　网络爬虫又名“网络蜘蛛”，是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到按照某种策略把互联网上所有的网页都抓取完为止的技术。
　　网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫(General Purpose Web Crawler)、主题网络爬虫(Topical Web Crawler)、深层网络爬虫(Deep Web Crawler)。实际应用中通常是将系统几种爬虫技术相互结合。