phpmaster
xpath在爬虫中的使用流程
- 1.下载:pip install lxml
- 2.导包:from lxml import etree
3.创建etree对象进行指定数据的解析
本地:etree=etree.parse('本地文件路径')
etree.xpath('xpath表达式')
网络:etree=etree.HTML('网络请求到的页面数据')
etree.xpath('xpath表达式')
常用的xpath表达式:
1.属性定位:
找到class属性值为song的div标签
//div[@class="song"]
2.层级&索引定位:
找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a
//div[@class="tang"]/ul/li[2]/a
3.逻辑运算:
找到href属性值为空且class属性值为du的a标签
//a[@href="" and @class="du"]
4.模糊匹配:
//div[contains(@class, "ng")] //div[starts-with(@class, "ta")] 取文本:
/表示获取某个标签下的文本内容
//表示获取某个标签下的文本内容和所有子标签下的文本内容
//div[@class="song"]/p[1]/text()
//div[@class="tang"]//text()
5.取属性:
//div[@class="tang"]//li[2]/a/@href
- xpath插件:就可以直接将xpath表达式作用于浏览器的网页当中
- 安装:更多工具-》扩展程序-》开启右上角的开发者模式-》xpath插件拖动到页面即可
快捷键:
- 开启和关闭xpath插件:ctrl+shitf+x