海外翻墙免费加速器:[入口]
python beautifulsoup4 安装
下载beautifulsoup链接:
https://pypi.python.org/pypi/beautifulsoup4(下载type为Source的文件夹)
下载步骤:运行cmd,切换到D:/python/beautifulsoup4-4.1.3/目录下(根据自己解压缩后的目录和下载的版本号修改),cd C:\Python27\beautifulsoup4-4.3.0\,打出命令setup.py install。(前提是python的环境变量已经设置了)
检查beautifulsoup是否安装成功
在cmd环境下,打出python,进入python模块。输入from bs4 import BeautifulSoup检测是否成功。
python beautifulsoup4使用案例
#coding:utf-8
#author:http://www.chenhaifei.com/
import requests #打开
import sys #专门乱码的
from bs4 import BeautifulSoup as bs #把html结构化
reload(sys)
sys.setdefaultencoding(‘utf-8’)
headers={
‘User-Agent’:’Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36′,
}
url=’http://www.chenhaifei.com/archive’
print url
cont = requests.get(url,timeout=120,headers=headers).content #通过request获取网页源码
soup = bs(cont, “html.parser”) ##使用soup结构话源码
infos = soup.find(‘ul’,{‘class’:”listing”}).find_all(‘li’) ##批量获取ul下的li标签
for i in infos: ##遍历li的数组
title=i.find(‘a’).text ##获取li下的a标签
date=i.find(‘span’,{‘class’:”date”}).text #获取li下的span标签
print title,date
未经允许不得转载:陈海飞博客 » python beautifulsoup4 安装及使用案例