豆瓣网站很人性化,对于新手爬虫比较友好,没有如果调低爬取频率,不用担心会被封 IP。但也不要太频繁爬取。
涉及知识点:requests、html、xpath、csv
一、准备工作
需要安装requests、lxml、csv库
二、分析页面源码
打开网址,按下F12,然后查找书名,右键弹出菜单栏 Copy==> Copy Xpath
以书名“追风筝的人” 获取书名的xpath是://*[@id="content"]/div/div[1]/div/table[1]/tbody/tr/td[2]/div[1]/a
这里需要注意一下,浏览器复制的xpath只能作参考,因为浏览器经常会在自己里面增加多余的tbody标签,我们需要手动把这个标签删除,整理成//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div[1]/a
同样获取图书的评分、评论人数、简介,结果如下:
//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div[2]/span[2]
//*[@id="content"]/div/div[1]/div/table[1]/tr/td[2]/div[2]/span[3]
//*[@id=&#
如果觉得《python爬取豆瓣书籍_Python爬虫-爬取豆瓣图书Top250》对你有帮助,请点赞、收藏,并留下你的观点哦!