2023年5月16日 星期二

爬蟲筆記-爬取美食地圖文章

 今天練習爬取 高雄美食地圖的標題


我們可以看到目標位於

<a itemprop="url" href="https://travel.ettoday.net/article/2479110.htm?from=travel_Tag_list_PC" title="顆顆金黃酥香!左營人私房下午茶40年蘿蔔酥餅 還有醉蝦濃郁甘醇">顆顆金黃酥香!左營人私房下午茶40年蘿蔔酥餅 還有醉蝦濃郁甘醇</a>









import requests
import html5lib
from bs4 import BeautifulSoup
i=1

while i <11:

    url='https://travel.ettoday.net/category/高雄美食/'
    #這個url是高雄美食首頁
    params={'page':i}
    #預計抓取10頁的標題,所以透過params 將page參數傳遞給url的查詢字串中
    header={'User-Agent':'my-app/0.0.1'}
    #標頭模擬使用者
    response=requests.get(url,headers=header,params=params)
    print(response.status_code)#確認是否200
   
    print(response.headers['content-type']) #確認網頁文本格式
    #是html,將回應中的HTML放入物件
    print()
    data=response.text
    #使用高容錯率的html5 搭配soup
    soup=BeautifulSoup(data,'html5lib')
    #將解析完的文本放入soup物件中
    print(soup.title)
    print()
    #看一下網頁標頭
    titles=soup.find_all('a',itemprop='url')
    #定位元素 a標籤, 並且符合 屬性為itemprop,屬性值為url,
    #也就是直接選取有附上連結的標題
    print(type(titles))
    #確認是不是Nonetype

    print()
    for title in titles:      
        print(title.text)
        print(title['href'])
            #印出標題和附上連結
    i +=1
    #進入下一頁


標籤:

0 個意見:

張貼留言

訂閱 張貼留言 [Atom]

<< 首頁