Posts List

Python爬虫初学

这几天学习了Python爬虫有关的知识,自己做了一个简单的实例:爬取熊猫直播某板块的主播信息。本实例使用Requests +BeautifulSoup和爬虫框架Scrapy两种方法。 BeautifulSoup可以从HTML或XML文件中提取数据,Requests则用于读取网络资源。虽然Python内置的urllib模块也可以读取网页,但Requests使用起来要更方便。首先需要确定要爬取的URL,这里我选择了熊猫直播的“守望先锋”板块,网址为https://www.panda.tv/cate/overwatch。先来看一下网页的源码: