Python 多程序併發操作中程序池Pool的例項

NO IMAGE

在利用Python進行系統管理的時候,特別是同時操作多個檔案目錄,或者遠端控制多臺主機,並行操作可以節約大量的時間。當被操作物件數目不大時,可以直接利用multiprocessing中的Process動態成生多個程序,10幾個還好,但如果是上百個,上千個目標,手動的去限制程序數量卻又太過繁瑣,這時候程序池Pool發揮作用的時候就到了。

Pool可以提供指定數量的程序,供使用者呼叫,當有新的請求提交到pool中時,如果池還沒有滿,那麼就會建立一個新的程序用來執行該請求;但如果池中的程序數已經達到規定最大值,那麼該請求就會等待,直到池中有程序結束,才會建立新的程序來它。這裡有一個簡單的例子:


#!/usr/bin/env python
#coding=utf-8
"""
Author: Squall
Last modified: 2011-10-18 16:50
Filename: pool.py
Description: a simple sample for pool class
"""
from multiprocessing import Pool
from time import sleep
def f(x):
for i in range(10):
print '%s --- %s ' % (i, x)
sleep(1)
def main():
pool = Pool(processes=3)  # set the processes max number 3
for i in range(11,20):
result = pool.apply_async(f, (i,))
pool.close()
pool.join()
if result.successful():
print 'successful'
if __name__ == "__main__":
main()

先建立容量為3的程序池,然後將f(i)依次傳遞給它,執行指令碼後利用ps aux | grep pool.py檢視程序情況,會發現最多隻會有三個程序執行。pool.apply_async()用來向程序池提交目標請求,pool.join()是用來等待程序池中的worker程序執行完畢,防止主程序在worker程序結束前結束。但必pool.join()必須使用在pool.close()或者pool.terminate()之後。其中close()跟terminate()的區別在於close()會等待池中的worker程序執行結束再關閉pool,而terminate()則是直接關閉。result.successful()表示整個呼叫執行的狀態,如果還有worker沒有執行完,則會丟擲AssertionError異常。

利用multiprocessing下的Pool可以很方便的同時自動處理幾百或者上千個並行操作,指令碼的複雜性也大大降低。

——————————————————————————————————

Python多程序併發(multiprocessing)

由於Python設計的限制(我說的是咱們常用的CPython)。最多隻能用滿1個CPU核心。

Python提供了非常好用的多程序包multiprocessing,你只需要定義一個函式,Python會替你完成其他所有事情。藉助這個包,可以輕鬆完成從單程序到併發執行的轉換。

1、新建單一程序

如果我們新建少量程序,可以如下:


import multiprocessing
import time
def func(msg):
for i in xrange(3):
print msg
time.sleep(1)
if __name__ == "__main__":
p = multiprocessing.Process(target=func, args=("hello", ))</ 
p.start()
p.join()
print "Sub-process done."

2、使用程序池

是的,你沒有看錯,不是執行緒池。它可以讓你跑滿多核CPU,而且使用方法非常簡單。

注意要用apply_async,如果落下async,就變成阻塞版本了。

processes=4是最多併發程序數量。


import
multiprocessing
import
time
def
func(msg):
for
i
in
xrange(3):
print
msg
time.sleep(1)
if
__name__
==
"__main__":
pool
=
multiprocessing.Pool(processes=4)
for
i
in
xrange(10):
msg
=
"hello
%d"
%(i)
pool.apply_async(func,
(msg,
))
pool.close()
pool.join()
print
"Sub-process(es)
done."

3、使用Pool,並需要關注結果

更多的時候,我們不僅需要多程序執行,還需要關注每個程序的執行結果,如下:


import multiprocessing
import time
def func(msg):
for i in xrange(3):
print msg
time.sleep(1)
return "done "   msg
if __name__ == "__main__":
pool = multiprocessing.Pool(processes=4)
result = []
for i in xrange(10):
msg = "hello %d" %(i)
result.append(pool.apply_async(func, (msg, )))
pool.close()
pool.join()
for res in result:
print res.get()
print "Sub-process(es) done."

2014.12.25更新

根據網友評論中的反饋,在Windows下執行有可能崩潰(開啟了一大堆新視窗、程序),可以通過如下呼叫來解決:


multiprocessing.freeze_support()

簡易worker multiprocessing.Pool

多工模型設計是一個比較複雜的邏輯,但是python對於多工的處理卻有種種方便的類庫,不需要過多的糾結程序/執行緒間的操作細節。比如multiprocessing.Pool就是其中之一。

官方給的範例也很簡單。


from multiprocessing import Pool
def f(x):
return x*x
if __name__ == '__main__':
pool = Pool(processes=4)       # start 4 worker processes
result = pool.apply_async(f, [10])  # evaluate "f(10)" asynchronously
print result.get(timeout=1)      # prints "100" unless your computer is *very* slow
print pool.map(f, range(10))     # prints "[0, 1, 4,..., 81]"

並未做太多的詳細解釋。正好我手頭有一段程式碼,需要請求幾百個url,解析html頁面獲取一些資訊,單執行緒for迴圈效率極低,因此看到了這個模組,想用這個實現多工分析,參考程式碼如下:


from multiprocessing import Pool
def analyse_url(url):
#do something with this url
return analysis_result
if __name__ == '__main__':
pool = Pool(processes=10)
result = pool.map(analyse_url, url_list)

確實比以前單執行緒for迴圈url_list列表,一個個請求analyse_url要快得多,但是帶來的問題就是一旦pool.map沒執行完就ctrl-c中斷程式,程式就會異常,永遠無法退出,參考stackoverflow的這個帖子,修改為以下程式碼:


#result = pool.map(analyse_url, url_list)
result = pool.map_async(analyse_url, url_list).get(120)

至此問題完美解決。

以上這篇Python 多程序併發操作中程序池Pool的例項就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支援指令碼之家。

您可能感興趣的文章:

python併發程式設計之多程序、多執行緒、非同步和協程詳解Python控制多程序與多執行緒併發數總結Python多程序併發(multiprocessing)用法例項詳解python實現多執行緒的方式及多條命令併發執行詳解Python中的多執行緒程式設計Python中多執行緒thread與threading的實現方法淺析Python中的多程序與多執行緒的使用基python實現多執行緒網頁爬蟲python多執行緒http下載實現示例Python多程序併發與多執行緒併發程式設計例項總結