在线HTML源码任意内容提取BeautifulSoup版

  • 时间:
  • 浏览:54
  • 来源:跟我学网络

常见的写法说明:

name="div" 其中的name指的是标签名,比如标签div,a,img,h1,code,p,span等

如果单纯指定标签名,很可能提取到一些不是你需要的内容,那么就需要配合下面的属性值来更精确的匹配到需要的内容

attrs={"class":"btn","style":"margin-top:30px"} 其中的attrs指的是标签属性,比如常见属性class,style,id,type,placeholder,title,alt或者其他自定义属性等等

name="span",attrs={"id":regex("abc\d{3}")} 这种格式是指定查找span标签,匹配这个标签中id属性值包含abc,且abc后面含有三位数字的内容, 其中字符串中的regex未固定格式,把正则内容写到()里即可

text 指的是输出为文本格式

你只要记住name是指定标签,attrs是指定属性值,attrs的格式其实是个字典,然后按示例格式写,就可以啦,就这么简单,习惯之后,提取任何html内容,犹如探囊取物!

格式是按照BeautifulSoup的find或者find_all模式写的,所以会用这个工具,基本上BeautifulSoup你也会了,反过来,你会BeautifulSoup,用这个工具应该是一看就会

建议使用火狐或者谷歌浏览器的查看元素来分析html源码,进行规则填写,相当方便和简单