爬蟲筆記-爬取美食地圖文章
今天練習爬取 高雄美食地圖的標題
我們可以看到目標位於
<a itemprop="url" href="https://travel.ettoday.net/article/2479110.htm?from=travel_Tag_list_PC" title="顆顆金黃酥香!左營人私房下午茶40年蘿蔔酥餅 還有醉蝦濃郁甘醇">顆顆金黃酥香!左營人私房下午茶40年蘿蔔酥餅 還有醉蝦濃郁甘醇</a>
import requests
import html5lib
from bs4 import BeautifulSoup
i=1
while i <11:
url='https://travel.ettoday.net/category/高雄美食/'
#這個url是高雄美食首頁
params={'page':i}
#預計抓取10頁的標題,所以透過params 將page參數傳遞給url的查詢字串中
header={'User-Agent':'my-app/0.0.1'}
#標頭模擬使用者
response=requests.get(url,headers=header,params=params)
print(response.status_code)#確認是否200
print(response.headers['content-type']) #確認網頁文本格式
#是html,將回應中的HTML放入物件
print()
data=response.text
#使用高容錯率的html5 搭配soup
soup=BeautifulSoup(data,'html5lib')
#將解析完的文本放入soup物件中
print(soup.title)
print()
#看一下網頁標頭
titles=soup.find_all('a',itemprop='url')
#定位元素 a標籤, 並且符合 屬性為itemprop,屬性值為url,
#也就是直接選取有附上連結的標題
print(type(titles))
#確認是不是Nonetype
print()
for title in titles:
print(title.text)
print(title['href'])
#印出標題和附上連結
i +=1
#進入下一頁
標籤: 爬蟲


0 個意見:
張貼留言
訂閱 張貼留言 [Atom]
<< 首頁