Copyright © 1994, by InfoSeek Corporation, all rights reserved.
執筆者 James Roskind [1]
Permission to use, copy, modify, and distribute this Python software and its associated documentation for any purpose (subject to the restriction in the following sentence) without fee is hereby granted, provided that the above copyright notice appears in all copies, and that both that copyright notice and this permission notice appear in supporting documentation, and that the name of InfoSeek not be used in advertising or publicity pertaining to distribution of the software without specific, written prior permission. This permission is explicitly restricted to the copying and modification of the software to remain in Python, compiled Python, or other languages (such as C) wherein the modified or derived code is exclusively imported into a Python module.
INFOSEEK CORPORATION DISCLAIMS ALL WARRANTIES WITH REGARD TO THIS SOFTWARE, INCLUDING ALL IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS. IN NO EVENT SHALL INFOSEEK CORPORATION BE LIABLE FOR ANY SPECIAL, INDIRECT OR CONSEQUENTIAL DAMAGES OR ANY DAMAGES WHATSOEVER RESULTING FROM LOSS OF USE, DATA OR PROFITS, WHETHER IN AN ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.
プロファイラ とは、様々な統計値を算出してプログラムの実行効率を調べるためのプログラムです。この文書では、 cProfile, profile, pstats モジュールが提供するプロファイラ機能について解説します。このプロファイラは Python プログラムに対する 決定論的プロファイリング を行います。また、プロファイル結果の検証を素早く行えるように、レポート生成用のツールも提供されています。
Python 標準ライブラリは3つの異なるプロファイラを提供しています。
cProfile はほとんどのユーザーに推奨されるモジュールです。 C言語で書かれた拡張モジュールで、オーバーヘッドが少ないため長時間実行されるプログラムのプロファイルに適しています。 Brett Rosen と Ted Czotter によって提供された lsprof に基づいています。
バージョン 2.5 で追加.
profile はピュア Python モジュールで、 cProfile モジュールはこのモジュールのインタフェースを真似ています。対象プログラムに相当のオーバーヘッドが生じます。もしプロファイラに何らかの拡張をしたいのであれば、こちらのモジュールを拡張する方が簡単でしょう。 Copyright © 1994, by InfoSeek Corporation.
バージョン 2.4 で変更: 組み込みの関数やメソッドで消費された時間も報告するようになりました。
hotshot は、後処理時間の長さと引き換えにプロファイル中のオーバーヘッドを小さくすることに主眼を置いた実験的な C モジュールでした。このモジュールはもう保守されておらず、将来のバージョンのPythonからは外されるかもしれません。
バージョン 2.5 で変更: 以前より意味のある結果が得られているはずです。かつては時間計測の中核部分に致命的なバグがありました.
profile と cProfile の両モジュールは同じインタフェースを提供しているので、ほぼ取り替え可能です。 cProfile はずっと小さなオーバーヘッドで動きますが、まだ新しく、全てのシステムで使えるとは限らないでしょう。 cProfile は実際には _lsprof 内部モジュールに被せられた互換性レイヤです。 hotshot モジュールは特別な使い道のために取っておいてあります。
この節は “マニュアルなんか読みたくない人”のために書かれています。ここではきわめて簡単な概要説明とアプリケーションのプロファイリングを手っ取り早く行う方法だけを解説します。
エントリポイント foo() を持つアプリケーションをプロファイルしたいとき、モジュールに次の内容を追加します。
import cProfile
cProfile.run('foo()')
(お使いのシステムで cProfile が使えないときは代わりに profile を使って下さい)
このように書くことで foo() を実行すると同時に一連の情報 (プロファイル) が表示されます。この方法は、インタプリタ上で作業をしている場合、最も便利なやり方です。プロファイルの結果をファイルに残し、後で検証したいときは、 run() の第2引数にファイル名を指定します。
import cProfile
cProfile.run('foo()', 'fooprof')
ファイル cProfile.py を使って、別のスクリプトをプロファイルすることも可能です。次のように実行します。
python -m cProfile myscript.py
cProfile.py はコマンドラインから2つのオプション引数を受け取ります。
cProfile.py [-o output_file] [-s sort_order]
-s は標準出力にのみ適用されます (つまり、 -o が与えられなかった場合)。利用可能なソートの値は、 Stats のドキュメントをご覧ください。
プロファイル内容を確認するときは、 pstats モジュールのメソッドを使用します。統計データの読み込みは次のようにします。
import pstats
p = pstats.Stats('fooprof')
Stats クラス (上記コードはこのクラスのインスタンスを生成するだけの内容です) は p に読み込まれたデータを操作したり、表示したりするための各種メソッドを備えています。先に cProfile.run() を実行したとき表示された内容と同じものは、3つのメソッド呼び出しにより実現できます。
p.strip_dirs().sort_stats(-1).print_stats()
最初のメソッドはモジュール名からファイル名の前に付いているパス部分を取り除きます。 2番目のメソッドはエントリをモジュール名/行番号/名前に基づいてソートします。 3番目のメソッドですべての統計情報を出力します。次のようなソートメソッドも使えます。
p.sort_stats('name')
p.print_stats()
最初の行ではリストを関数名でソートしています。2行目で情報を出力しています。さらに次の内容も試してください。
p.sort_stats('cumulative').print_stats(10)
このようにすると、関数が消費した累計時間でソートして、さらにその上位10件だけを表示します。どのアルゴリズムが時間を多く消費しているのか知りたいときは、この方法が役に立つはずです。
ループで多くの時間を消費している関数はどれか調べたいときは、次のようにします。
p.sort_stats('time').print_stats(10)
上記はそれぞれの関数で消費された時間でソートして、上位10件の関数の情報が表示されます。
次の内容も試してください。
p.sort_stats('file').print_stats('__init__')
このようにするとファイル名でソートされ、そのうちクラスの初期化メソッド (メソッド名 __init__) に関する統計情報だけが表示されます。
p.sort_stats('time', 'cum').print_stats(.5, 'init')
上記は時間 (time) をプライマリキー、累計時間 (cumulative time) をセカンダリキーにしてソートした後でさらに条件を絞って統計情報を出力します。 .5 は上位 50% だけを選択することを意味し、さらにその中から文字列 init を含むものだけが表示されます。
どの関数がどの関数を呼び出しているのかを知りたければ、次のようにします (p は最後に実行したときの状態でソートされています)。
p.print_callers(.5, 'init')
このようにすると、関数ごとの呼び出し側関数の一覧が得られます。
さらに詳しい機能を知りたければマニュアルを読むか、次の関数の実行結果から内容を推察してください。
p.print_callees()
p.add('fooprof')
スクリプトとして起動した場合、 pstats モジュールはプロファイルのダンプを読み込み、分析するための統計ブラウザとして動きます。シンプルな行指向のインタフェース (cmd を使って実装) とヘルプ機能を備えています。
決定論的プロファイリング とは、すべての 関数呼び出し, 関数からのリターン, 例外発生 をモニターし、正確なタイミングを記録することで、イベント間の時間、つまりどの時間にユーザコードが実行されているのかを計測するやり方です。もう一方の 統計的プロファイリング (このモジュールでこの方法は採用していません) とは、有効なインストラクションポインタからランダムにサンプリングを行い、プログラムのどこで時間が使われているかを推定する方法です。後者の方法は、オーバヘッドが少ないものの、プログラムのどこで多くの時間が使われているか、その相対的な示唆に留まります。
Python の場合、実行中は必ずインタプリタが動作しているため、決定論的プロファイリングを行うにあたり、計測用にコードを追加する必要はありません。 Python は自動的に各イベントに フック (オプションのコールバック) を提供します。加えて Python のインタプリタという性質によって、実行時に大きなオーバーヘッドを伴う傾向がありますが、それに比べると一般的なアプリケーションでは決定論的プロファイリングで追加される処理のオーバーヘッドは少ない傾向にあります。結果的に、決定論的プロファイリングは少ないコストで Python プログラムの実行時間に関する詳細な統計を得られる方法となっているのです。
呼び出し回数はコード中のバグ発見にも使用できます (とんでもない数の呼び出しが行われている部分)。インライン拡張の対象とすべき部分を見つけるためにも使えます (呼び出し頻度の高い部分)。内部時間の統計は、注意深く最適化すべき”ホットループ”の発見にも役立ちます。累積時間の統計は、アルゴリズム選択に関連した高レベルのエラー検知に役立ちます。なお、このプロファイラは再帰的なアルゴリズム実装の累計時間を計ることが可能で、通常のループを使った実装と直接比較することもできるようになっています。
プロファイラの主要なエントリポイントはグローバル関数 profile.run() (または cProfile.run()) です。この関数は、通常プロファイル情報の作成に使われます。 pstats.Stats クラスのメソッドを使ってプロファイル情報を整形出力します。以下はすべての標準エントリポイントと関数の解説です。さらにいくつかのコードの詳細を知りたければ、「プロファイラの拡張」を読んでください。派生クラスを使ってプロファイラを”改善”する方法やモジュールのソースコードの読み方が述べられています。
この関数はオプション引数として exec 文に渡すファイル名を指定できます。このルーチンは必ず最初の引数の exec を試み、実行結果からプロファイル情報を収集しようとします。ファイル名が指定されていないときは、各行の標準名文字列 (ファイル名/行数/関数名) でソートされた簡単なレポートが表示されます。以下はその出力例です。
2706 function calls (2004 primitive calls) in 4.504 CPU seconds
Ordered by: standard name
ncalls tottime percall cumtime percall filename:lineno(function)
2 0.006 0.003 0.953 0.477 pobject.py:75(save_objects)
43/3 0.533 0.012 0.749 0.250 pobject.py:99(evaluate)
...
最初の行は2706回の関数呼び出しがあったことを示しています。このうち2004回は プリミティブ なものです。 プリミティブ な呼び出しとは、再帰によるものではない関数呼び出しを指します。次の行 Ordered by: standard name は、一番右側の欄の文字列を使ってソートされたことを意味します。各カラムの見出しの意味は次の通りです。
(43/3 など) 最初の欄に2つの数字が表示されている場合、最初の値は呼び出し回数、 2番目はプリミティブな呼び出しの回数を表しています。関数が再帰していない場合はどちらの回数も同じになるため、1つの数値しか表示されません。
この関数は run() に似ていますが、 command 文字列に対するグローバル辞書とローカル辞書の引数が追加されています。
プロファイラデータの分析は Stats クラスを使って行います。
ノート
Stats クラスは pstats モジュールで定義されています。
このコンストラクタは filename で指定した (単一または複数の) ファイルから “統計情報オブジェクト”のインスタンスを生成します。 Stats オブジェクトはレポートを出力するメソッドを通じて操作します。また、他の出力ストリームをキーワード引数 stream で指定できます。
上記コンストラクタで指定するファイルは、使用する Stats に対応したバージョンの profile または cProfile で作成されたものでなければなりません。将来のバージョンのプロファイラとの互換性は 保証されておらず 、他のプロファイラとの互換性もないことに注意してください。複数のファイルを指定した場合、同一の関数の統計情報はすべて合算され、複数のプロセスで構成される全体をひとつのレポートで検証することが可能になります。既存の Stats オブジェクトに別のファイルの情報を追加するときは、 add() メソッドを使用します。
バージョン 2.5 で変更: stream 引数が追加されました.
Stats には次のメソッドがあります。
Stats クラスのこのメソッドは、ファイル名の前に付いているすべてのパス情報を取り除くためのものです。出力の幅を80文字以内に収めたいときに重宝します。このメソッドはオブジェクトを変更するため、取り除いたパス情報は失われます。パス情報除去の操作後、オブジェクトが保持するデータエントリは、オブジェクトの初期化、ロード直後と同じように”ランダムに”並んでいます。 strip_dirs() を実行した結果、2つの関数名が区別できない (両者が同じファイルの同じ行番号で同じ関数名となった) 場合、一つのエントリに合算されされます。
Stats クラスのこのメソッドは、既存のプロファイリングオブジェクトに情報を追加します。引数は対応するバージョンの profile.run() または cProfile.run() によって生成されたファイルの名前でなくてはなりません。関数の名前が区別できない (ファイル名、行番号、関数名が同じ) 場合、一つの関数の統計情報として合算されます。
Stats オブジェクトに読み込まれたデータを、ファイル名 filename のファイルに保存します。ファイルが存在しない場合は新たに作成され、すでに存在する場合には上書きされます。このメソッドは profile.Profile クラスおよび cProfile.Profile クラスの同名のメソッドと等価です。
バージョン 2.3 で追加.
このメソッドは Stats オブジェクトを指定した基準に従ってソートします。典型的には引数にソートのキーにしたい項目を示す文字列を指定します (例: 'time' や 'name' など)。
2つ以上のキーが指定された場合、2つ目以降のキーは、それ以前のキーで等価となったデータエントリの再ソートに使われます。たとえば sort_stats('name', 'file') とした場合、まずすべてのエントリが関数名でソートされた後、同じ関数名で複数のエントリがあればファイル名でソートされます。
キー名には他のキーと判別可能である限り綴りを省略して名前を指定できます。現在のバージョンで定義されているキー名は以下の通りです。
正式名 | 内容 |
---|---|
'calls' | 呼び出し回数 |
'cumulative' | 累積時間 |
'file' | ファイル名 |
'module' | モジュール名 |
'pcalls' | プリミティブな呼び出し回数 |
'line' | 行番号 |
'name' | 関数名 |
'nfl' | 関数名/ファイル名/行番号 |
'stdname' | 標準名 |
'time' | 内部時間 |
すべての統計情報のソート結果は降順 (最も多く時間を消費したものが一番上に来る) となることに注意してください。ただし、関数名、ファイル名、行数に関しては昇順 (アルファベット順) になります。 'nfl' と 'stdname' には微妙な違いがあります。標準名 (standard name) とは表示された名前によるソートで、埋め込まれた行番号のソート順が特殊です。たとえば、 (ファイル名が同じで) 3、20、40という行番号のエントリがあった場合、20、3、40 の順に表示されます。一方 'nfl' は行番号を数値として比較します。要するに、 sort_stats('nfl') は sort_stats('name', 'file', 'line') と指定した場合と同じになります。
後方互換性のため、数値を引数に使った -1, 0, 1, 2 の形式もサポートしています。それぞれ 'stdname', 'calls', 'time', 'cumulative' として処理されます。引数をこの旧スタイルで指定した場合、最初のキー (数値キー) だけが使われ、複数のキーを指定しても2番目以降は無視されます。
Stats クラスのこのメソッドは、オブジェクト内の情報のリストを逆順にソートします。デフォルトでは選択したキーに応じて昇順、降順が適切に選ばれることに注意してください。
Stats クラスのこのメソッドは、 profile.run() の項で述べたプロファイルのレポートを出力します。
出力するデータの順序はオブジェクトに対し最後に行った sort_stats() による操作に基づきます (add() と strip_dirs() による制限にも支配されます)。
引数は (もし与えられると) リストを重要なエントリのみに制限するために使われます。初期段階でリストはプロファイルした関数の完全な情報を持っています。制限の指定は、 (行数を指定する) 整数、 (行のパーセンテージを指定する) 0.0 から 1.0 までの割合を指定する小数、 (出力する standard name にマッチする) 正規表現のいずれかを使って行います。正規表現は Python 1.5b1 で導入された re モジュールで使える Perl スタイルのものです。複数の制限が指定された場合、指定の順に適用されます。たとえば次のようになります。
print_stats(.1, 'foo:')
上記の場合まず出力するリストは全体の10%に制限され、さらにファイル名の一部に文字列 .*foo: を持つ関数だけが出力されます。
print_stats('foo:', .1)
こちらの例の場合、リストはまずファイル名に .*foo: を持つ関数だけに制限され、その中の最初の 10% だけが出力されます。
Stats クラスのこのメソッドは、プロファイルのデータベースの中から何らかの関数呼び出しを行った関数をすべて出力します。出力の順序は print_stats() によって与えられるものと同じです。出力を制限する引数も同じです。各呼び出し側関数についてそれぞれ一行ずつ表示されます。フォーマットは統計を作り出したプロファイラごとに微妙に異なります。
Stats クラスのこのメソッドは、指定した関数から呼び出された関数のリストを出力します。呼び出し側、呼び出される側の方向は逆ですが、引数と出力の順序に関しては print_callers() と同じです。
一つの制限はタイミング情報の正確さに関するものです。決定論的プロファイラには正確さに関する根本的問題があります。最も明白な制限は、 (一般に) “クロック”は .001 秒の精度しかないということです。これ以上の精度で計測することはできません。仮に充分な精度が得られたとしても、”誤差”が計測の平均値に影響を及ぼすことがあります。この最初の誤差を取り除いたとしても、それがまた別の誤差を引き起こす原因となります。
もう一つの問題として、イベントを検知してからプロファイラがその時刻を実際に 取得 するまでに “いくらかの時間がかかる” ことです。同様に、イベントハンドラが終了する時にも、時刻を取得して (そしてその値を保存して) から、ユーザコードが処理を再開するまでの間に遅延が発生します。結果的に多く呼び出される関数または多数の関数から呼び出される関数の情報にはこの種の誤差が蓄積する傾向にあります。このようにして蓄積される誤差は、典型的にはクロックの精度を下回ります (1クロック以下) が、一方でこの時間が累計して非常に大きな値になることも あり得ます 。
この問題はオーバーヘッドの小さい cProfile よりも profile においてより重要です。そのため、 profile は誤差が確率的に (平均値で) 減少するようにプラットフォームごとに補正する機能を備えています。プロファイラに補正を施すと (最小二乗の意味で) 正確さが増しますが、ときには数値が負の値になってしまうこともあります (呼び出し回数が極めて少なく、確率の神があなたに意地悪をしたとき :-) )。プロファイルの結果に負の値が出力されても 驚かないでください 。これは補正を行った場合にのみ生じることで、補正を行わない場合に比べて計測結果は実際にはより正確になっているはずだからです。
profile のプロファイラは time 関数呼び出しおよびその値を保存するためのオーバーヘッドを補正するために、各イベントの処理時間から定数を引きます。デフォルトでこの定数の値は 0 です。以下の手順で、プラットフォームに合った、より適切な定数が得られます (前節「制限事項」の説明を参照)。
import profile
pr = profile.Profile()
for i in range(5):
print pr.calibrate(10000)
calibrate メソッドは引数として与えられた数だけ Python の呼び出しを行います。直接呼び出す場合と、プロファイラを使って呼び出す場合の両方が実施され、それぞれの時間が計測されます。その結果、プロファイラのイベントに隠されたオーバーヘッドが計算され、その値は浮動小数として返されます。たとえば、 800 MHz の Pentium で Windows 2000 を使用、 Python の time.clock() をタイマとして使った場合、値はおよそ 12.5e-6 となります。
この手順で使用しているオブジェクトはほぼ一定の結果を返します。 非常に 早いコンピュータを使う場合、もしくはタイマの性能が貧弱な場合は、一定の結果を得るために引数に 100000 や 1000000 といった大きな値を指定する必要があるかもしれません。
一定の結果が得られたら、それを使う方法には3通りあります。 [2]
import profile
# 1. 算出した補正値 (your_computed_bias) をこれ以降生成する
# Profile インスタンスに適用する。
profile.Profile.bias = your_computed_bias
# 2. 特定の Profile インスタンスに補正値を適用する。
pr = profile.Profile()
pr.bias = your_computed_bias
# 3. インスタンスのコンストラクタに補正値を指定する。
pr = profile.Profile(bias=your_computed_bias)
選択肢がある場合は、補正値は小さめに設定した方が良いでしょう。プロファイルの結果に負の値が表われる”頻度が低く”なるはずです。
profile モジュールおよび cProfile モジュールの Profile クラスは、プロファイラの機能を拡張するために派生クラスを作成することを前提に書かれています。しかしその方法を説明するには、 Profile の内部動作について詳細な解説が必要となるため、ここでは述べません。もし拡張を行いたいのであれば、使用するモジュールのソースを注意深く読む必要があります。
プロファイラが時刻を取得する方法を変更したいだけなら (たとえば、実測時間やプロセスの経過時間を使いたい場合)、時刻取得用の関数を Profile クラスのコンストラクタに指定することができます。
pr = profile.Profile(your_time_func)
この結果生成されるプロファイラは時刻取得に your_time_func() を呼び出すようになります。
your_time_func() は単一の数値、あるいは (os.times() と同じように) その合計が累計時間を示すリストを返すようになっていなければなりません。関数が1つの数値、あるいは長さ2の数値のリストを返すようになっていれば、ディスパッチルーチンには特別な高速化バージョンが使われます。
選択する時刻取得関数によって、プロファイラクラスを補正する必要があることに注意してください。多くのマシンにおいて、プロファイル時のオーバヘッドを少なくする方法として、タイマは長整数を返すのが最善です (os.times() は浮動小数のタプルを返すので おすすめできません)。タイマをより正確なものに置き換えたいならば、派生クラスでそのディスパッチメソッドを適切なタイマ呼び出しと適切な補正を行うように書き直す必要があります。
your_time_func() は単一の数値を返さなければなりません。もしこれが整数を返す関数ならば、2番目の引数に単位時間当たりの実際の持続時間を指定してクラスのコンスタラクタを呼び出すことができます。たとえば、 your_integer_time_func() が1000分の1秒単位で計測した時間を返すとすると、 Profile インスタンスを次のように生成することができます。
pr = profile.Profile(your_integer_time_func, 0.001)
cProfile.Profile クラスはキャリブレーションができないので、自前のタイマ関数は注意を払って使う必要があり、またそれは可能な限り速くなければなりません。自前のタイマ関数で最高の結果を得るには、 _lsprof 内部モジュールの C ソースファイルにハードコードする必要があるかもしれません。
注記
[1] | アップデートと LaTeX への変換は Guido van Rossum によるもの。さらに Python 2.5 の新しい cProfile モジュールの文書を統合するアップデートは Armin Rigo による。 |
[2] | Python 2.2 より前のバージョンではプロファイラのソースコードに補正値として埋め込まれた定数を直接編集する必要がありました。今でも同じことは可能ですが、その方法は説明しません。なぜなら、もうソースを編集する必要がないからです。 |