久久国产午夜精品理论片,中国一级黄色视频

當(dāng)前位置： OFweek 人工智能網(wǎng) > 大數(shù)據(jù) > 正文

如何通過(guò)搜索關(guān)鍵字來(lái)獲取百度貼吧評(píng)論區(qū)的圖片和視頻？

2020-12-18 09:37

Python進(jìn)階學(xué)習(xí)交流

【一、項(xiàng)目背景】

百度貼吧是全球最大的中文交流平臺(tái)，你是否跟我一樣，有時(shí)候看到評(píng)論區(qū)的圖片想下載呢？或者看到一段視頻想進(jìn)行下載呢？

今天，小編帶大家通過(guò)搜索關(guān)鍵字來(lái)獲取評(píng)論區(qū)的圖片和視頻。

【二、項(xiàng)目目標(biāo)】

實(shí)現(xiàn)把貼吧獲取的圖片或視頻保存在一個(gè)文件。

【三、涉及的庫(kù)和網(wǎng)站】

1、網(wǎng)址如下：

https：／／tieba．baidu．com／f？ie＝utf－8＆kw＝吳京＆fr＝search

2、涉及的庫(kù)：requests、lxml、urrilb

【四、項(xiàng)目分析】

1、反爬措施的處理

前期測(cè)試時(shí)發(fā)現(xiàn)，該網(wǎng)站反爬蟲(chóng)處理措施很多，測(cè)試到有以下幾個(gè)：

1）直接使用requests庫(kù)，在不設(shè)置任何header的情況下，網(wǎng)站直接不返回?cái)?shù) 據(jù)。

2）同一個(gè)ip連續(xù)訪問(wèn)40多次，直接封掉ip，起初我的ip就是這樣被封掉的。

為了解決這兩個(gè)問(wèn)題，最后經(jīng)過(guò)研究，使用以下方法，可以有效解決。

獲取正常的 http請(qǐng)求頭，并在requests請(qǐng)求時(shí)設(shè)置這些常規(guī)的http請(qǐng)求頭。

2、如何實(shí)現(xiàn)搜索關(guān)鍵字？

通過(guò)網(wǎng)址我們可以發(fā)現(xiàn)只需要在kw＝（），括號(hào)中輸入你要搜索的內(nèi)容即可。這樣就可以用一個(gè)｛｝來(lái)替代它，后面我們?cè)谕ㄟ^(guò)循環(huán)遍歷它。

【五、項(xiàng)目實(shí)施】

1、創(chuàng)建一個(gè)名為BaiduImageSpider的類，定義一個(gè)主方法main和初始化方法init。導(dǎo)入需要的庫(kù)。import requestsfrom lxml import etreefrom urllib import parseclass BaiduImageSpider（object）： def ＿＿init＿＿（self， tieba＿name）： pass def main（self）： passif ＿＿name＿＿＝＝＇＿＿main＿＿＇： inout＿word ＝ input（＂請(qǐng)輸入你要查詢的信息：＂）
spider．main（） passif ＿＿name＿＿＝＝＇＿＿main＿＿＇： spider＝ ImageSpider（） spider．main（）

2、準(zhǔn)備url地址和請(qǐng)求頭headers 請(qǐng)求數(shù)據(jù)。import requestsfrom lxml import etreefrom urllib import parseclass BaiduImageSpider（object）： def ＿＿init＿＿（self， tieba＿name）： self．tieba＿name ＝ tieba＿name ＃輸入的名字 self．url ＝＂http：／／tieba．baidu．com／f？kw＝｛｝＆ie＝utf－8＆pn＝0＂ self．headers ＝｛＇User－Agent＇：＇Mozilla／4．0 （compatible； MSIE 8．0； Windows NT 6．1； WOW64； Trident／4．0； SLCC2；．NET CLR 2．0．50727；．NET CLR 3．5．30729；．NET CLR 3．0．30729； Media Center PC 6．0；．NET4．0C； InfoPath．3）＇｝
＇＇＇發(fā)送請(qǐng)求獲取響應(yīng)＇＇＇ def get＿parse＿page（self， url， xpath）： html ＝ requests．get（url＝url， headers＝self．headers）．content．decode（＂utf－8＂） parse＿h(yuǎn)tml ＝ etree．HTML（html） r＿list ＝ parse＿h(yuǎn)tml．xpath（xpath） return r＿list def main（self）： url ＝ self．url．format（self．tieba＿name）if ＿＿name＿＿＝＝＇＿＿main＿＿＇： inout＿word ＝ input（＂請(qǐng)輸入你要查詢的信息：＂） key＿word ＝ parse．quote（inout＿word） spider ＝ BaiduImageSpider（key＿word） spider．main（）

1 2 下一頁(yè)>

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號(hào)的作者撰寫(xiě)，觀點(diǎn)僅代表作者本人，不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題，請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

共0條評(píng)論，0人參與

登錄登錄即可訪問(wèn)所有OFweek服務(wù)

用戶名/郵箱/手機(jī)：
密碼：
忘記密碼？
用其他賬號(hào)登錄： QQ | 微信 | 新浪微博

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

暫無(wú)評(píng)論

暫無(wú)評(píng)論

圖片新聞

最新發(fā)布

最新活動(dòng)更多

6月20日
立即下載>> 【白皮書(shū)】精準(zhǔn)測(cè)量安全高效——福祿克光伏行業(yè)解決方案
7月3日
立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
7月22-29日
立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
7.30-8.1
火熱報(bào)名中>> 全數(shù)會(huì)2025（第六屆）機(jī)器人及智能工廠展
7月31日
免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
免費(fèi)參會(huì)
立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報(bào)告

人工智能獵頭職位更多

掃碼關(guān)注公眾號(hào)
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯(cuò)

x

_*文字標(biāo)題：

_*糾錯(cuò)內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號(hào)

感谢您访问我们的网站，您可能还对以下资源感兴趣：

99久久免费精品国产对白

中文字字幕在线中文乱码6互动交流久久久性爱视频性久久久久美女黄免费 97久久精品人人