爬虫的原理:读取页面html元素,解析出目标的url,进入或下载保存。
一开始想从百度搜索的结果页面中爬点图片当素材,看了几个前辈写的,很多思路。
比如:
http://blog.csdn.net/seanwang_25/article/details/43318907
最终实验,目前百度图片搜索列表的元素识别我没有搞定,最后的思路还是用了最基本的浏览器去自动点击下载。许提供给程序的链接是搜索结果中,点开图片后的大图页面。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
| # -*- coding: UTF-8 -*- """ 本爬虫爬取后台需要使用的图片 """ import time from splinter import Browser import traceback
class Crawler: def __init__(self): # 如果下载不成功则下一张,仍然不能获取浏览返回状态则忽略 self.url="http://image.baidu.com/search/detail?ct=503316480&z=0&ipn=false&word=%E7%BE%8E%E5%A5%B3&step_word=&hs=0&pn=0&spn=0&di=115841179330&pi=0&rn=1&tn=baiduimagedetail&is=0%2C0&istype=2&ie=utf-8&oe=utf-8&in=&cl=2&lm=-1&st=-1&cs=1448969331%2C3840882916&os=3613101257%2C51753532&simid=0%2C0&adpicid=0&lpn=0&ln=3900&fr=&fmq=1491741852964_R&fm=detail&ic=0&s=undefined&se=&sme=&tab=0&width=&height=&face=undefined&ist=&jit=&cg=girl&bdtype=11&oriquery=&objurl=http%3A%2F%2Fimg.popo.cn%2Fuploadfile%2F2017%2F0217%2F1487316191770266.jpg&fromurl=ippr_z2C%24qAzdH3FAzdH3Fooo_z%26e3Br5r5_z%26e3BvgAzdH3Fkjw7pyAzdH3FgjofAzdH3F8l0_8c9b9n_8_z%26e3Bip4s&gsm=&rpstart=0&rpnum=0" # kernel function
def launch(self): # launch driver browser = Browser('chrome') browser.driver.maximize_window() browser.visit(self.url) #browser.driver.implicitly_wait(5) #browser.driver.Manage().Timeouts().SetPageLoadTimeout(600);
for i in range(500): try: browser.reload() browser.driver.set_page_load_timeout(10) browser.driver.set_script_timeout(15) if browser.is_element_present_by_text('下载'): browser.find_by_text('下载').first.click() <!-- more --> else: browser.evaluate_script('$(".img-switch-btn").last().click()') except: # 如果下载不成功则下一张,仍然不能获取浏览返回状态则忽略 try: browser.evaluate_script('$(".img-switch-btn").last().click()') except: traceback.print_exc() pass time.sleep(1.5) if(len(browser.windows) > 1): browser.windows.current = browser.windows[0] browser.windows.current.close_others() #如果下载不成功则下一张,仍然不能获取浏览返回状态则忽略 try: browser.evaluate_script('$(".img-switch-btn").last().click()') except: pass else: # 如果下载不成功则下一张,仍然不能获取浏览返回状态则忽略 try: browser.evaluate_script('$(".img-switch-btn").last().click()') except: pass
if __name__ == '__main__': crawler = Crawler() crawler.launch()
|
第二个使用爬虫基本工序操作的爬取图片代码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
| #coding=utf-8 import urllib.request import re
def getHtml(url):
page = urllib.request.urlopen(url) html = page.read() html = html.decode('utf-8') #print(html) return html
def getImg(html): reg = r'src="(.+?\.jpg)" width' #re.compile(reg)把正则表达式转换成re的正则对象 imgre = re.compile(reg) imglist = re.findall(imgre,html) print(imglist) x = 0 for imgurl in imglist: urllib.request.urlretrieve(imgurl,'%s.jpg' % imgurl[-20:-4]) x+=1
html = getHtml("https://tieba.baidu.com/p/4658587322")
print(getImg(html))
|