Subversion 批判に対する反論

Ben Collins-Sussman

sussman@red-bean.com

翻訳: 上平　哲 <tez@kamihira.com>

Original: http://www.red-bean.com/sussman/svn-anti-fud.html
Latest: http://www.red-bean.com/sussman/svn-anti-fud.html

私は Subversion の開発者で、非常に初期からこのプロジェクトにかかわっているものです。この文章は私自身が書いた私的なものです。批判的になる気持はまったくありません; Subversion についての単に個人的な意見と感じ方にすぎません。公式なドキュメントではありませんが、Subversionについての悪い噂がある場所にはどこでもこのドキュメントをリンクしてくれればと思います。この意図はネット上で私がいろいろと耳にした共通の噂や間違った理解のいくつかについて疑いを晴らすためのものです。

はじめる前に、興味を持っているシステム管理者に対してひとこと。もしSubversionを理解し、あなたのグループあるいは企業でこれを利用することを考えているのであれば、ふつうそうするように、新製品にたいして接するようにしてください。つまり、注意深く接してください。Subversion を信用するなと言っているわけではありません・・・しかし常識的に考えるべきではない、と言っているのでもありません。テストなしに重要な目的に利用するのは避けて欲しいと言っているのです。誰も新しい製品を強制されたくはありませんしあなたがシステムに対して責任を持とうとするのであれば、広く利用してもらう前に自分でよく馴染んでおく必要があるでしょう。小さなプロジェクトを見つけてSubversionを、まずは「テスト的に」使ってみましょう。最終的に Subversion を気に入れば、その開発者たち(テストに参加してくれた開発者たち)を幸せにできますし、より大きなシステムに対しても利用する用意ができることになるでしょう。

さて、私がよく耳にする FUD のいくつかを以下に挙げます。

Subversion は構築するのが難しすぎるし、他のプログラムに依存しすぎています。Apache が必要だと聞きました・・・立派すぎてやる気が失せてしまいます。

Apache の話を先にします: Subversion は Apache を必要とは しません。Apache Portable Runtime (APR) ライブラリを必要とはしますが、それは Apache ウェブサーバとは別のものです。 APR は Subversion クライアントとサーバが、Apache にできることのすべてを可能にするもので、これは Netscape Portable Runtime (NSPR)が Mozilla についてそうであるのと同じ関係にあります。

Subversion は二つの異なるサーバがあります: 独自の WebDAV モジュールつきの Apache2 を使うこともできますし、CVSの pserver と良く似たスタンドアロンの小さな 'svnserve' を走らせることもできます。どちらが "公式のもの" ということはありませんし、それぞれ利点、欠点があります。 Subversion Book の 6 章のはじめ、 comparison of featuresを見てください。 (訳)

次に、"コンパイルの難しさ" について触れます: 最後に CVS をコンパイルしたのはいつですか? え、そんな経験はない? ということは、それはシステムに最初からインストールしてあったわけですね? ちがいますか? もしあなたが良くサポートされたオペレーティングシステムを利用しているなら Subversion のバイナリはあなたのディストリビューションに標準パッケージとして含まれている(rpms, debs, fink, など)か、あるいは簡単にダウンロードできるはずです(win32 の場合)。

コンパイルは開発者の話であってユーザの話ではありません。Mozilla, Evolution, KDE, そして Gnome だって同じようにひどい外部依存性があるではありませんか。しかしほとんどのユーザはこれを気にしていませんがそれは自分たちでコンパイルする必要がないからです。結局、Subversionはたくさんの複雑な機能をもっていて、それをもう一度いちから作りたくなかったから、さまざまな外部依存性があるわけです。Subversion だけが特別だということはありません。

Subversion は新しさがない -- それは古い CVS モデルを踏襲しているだけだ。なんで CVS を真似るんだ? どうしてつまらないものを洗練させるのにエネルギーを使うんだ?

まず、Subversion プロジェクトはつねに以下のような"基本的な公理"があります:

CVS は非常にすぐれた、そしてバージョン管理にふさわしいことが証明されたモデルである; 単にうまく実装されていないだけだ。

つまらないものを洗練しているのではなく、ダイヤモンドの原石を磨いているのです。Subversion は CVS モデルをつかい、それにディレクトリバージョン機能、不分割コミット、データベースバックグラウンド、バージョン化されたメタデータ、効率的なバイナリファイル処理、柔軟なネットワーク機能、そして、厳密な C の API などの機能を付け加えてきました。それは CVS が最初からやるべきであったことです。

もし、プロジェクトのこの基本的な公理に反対であるなら、もうあまり話すことはありません; Subversion はあなた向きではありません。かわりに"分散型" バージョン管理システムを試すと良いでしょう。たとえば svk, monotone, or arch. 分散システムは最近大流行で、このようなシステムはSubversionとは別の方法を利用していますが、私はいずれもすばらしい考え方であることを疑っていません。

しかし、ここに自分で考えるにあたって、いくつかの資料があります:

Subversion Book には CVS/SVN の同時、集中モデルについての丁寧な説明があります。(訳)
Greg Hudson は分散モデルに反対する 興味深いエッセイを書いています。

Subversion が単に "改良された CVS" にすぎないのなら、どうして 1.0 を作るのに 4年もかかるんだ? いくつかの機能をちょっと CVS の上に乗せるのがそんなに大変なのかい?

単に "CVS の上にちょっとした機能を乗せただけ" といってプロジェクトを侮辱するのはやめてください。それらの機能は単に CVS の上に"乗せた" だけではありません。CVS のコードベースはひどいことになっていて、単に拡張することは不可能でした。これが、私たちが完全に新しい設計でいちから開発を始めた理由です。Subversion と CVS はまったくコードを共有していません; 共通点は、同時実行可能な、集中モデルを採用していることと、似たようなユーザインターフェースをもっていることだけです。

私たちはジャーナル化されたライブラリを実装することから始めましたが、これは作業コピーとバージョン化されたディレクトリを管理するものです。それからトランザクションデータベース上にリポジトリを実装しました。これは完全なツリーのある一時点でのスナップショットを格納するためのものです。Subversion が自分自身によってバージョン管理される以前に、このことだけで 14ヶ月のコーディングが必要でした。その後、安定化、バグ修正、機能が戻ってしまっていないかのテスト、そして数週間ごとのリリースのために2年半かかりました。バージョン化されたディレクトリは非常に困難な問題でした。

Subversion が "アルファ" 状態となった時点で、すでに何十人という私的な開発者と会社が実際の作業にかかわることができるようになっていました。ほかのプロジェクトなら、おそらくこれをもって "1.0" と呼んでいたことでしょう。しかし私たちは意図的にそのような呼び方をできるだけ遅らせることに決定しました。それは私たちは、ユーザの非常に重要なデータを管理することについての作業であったので、1.0 というような名前をつけることには極端に保守的であったためです。私たちは多くの人々が Subversion を利用する前にその名前(1.0)を待つ形になるだろうし、その呼び名に対しては特別な期待を感じているだろうということに気づいていました。それで、保守的であることにこだわりました。その意図は SCM に対する評判を落としてしまうようなデータ消失を起こさないようにすることでした。

私は自分の会社で別の SCM を使ったソリューションを調べていて、そこで Subversion と別のシステムとの比較表を見つけました。そこでは Subversion は [機能 X] が欠けているとあります。これは問題だとは思いませんか? この機能を追加するような計画はありますか? 私たちのグループはこのプロジェクトにたいして貢献したいと思うのですが、この機能を実装してくれないのであれば、そうすることはできないのですが。

まず最初に、私たちを脅しても、どこにも行き着きません。多くの人々はまずリソースを提供しておいて、その後プロジェクトを脅すという手段によってプロジェクトに影響を与えることができると考えているようです。Subversion は他のオープンソースプロジェクトと同様、実力主義を基本としたコードの貢献と多くの議論によって成り立っています。どんな人に対してもそうですが、あなたが参加することも歓迎ですが、それは他のすべての人が従っているルールにあなたも従う限りにおいて、です。詳細は HACKING document を見てください。

次に Subversion の開発者ははっきりしない機能が忍び込むことに対して非常に敏感です。多くのプロジェクトは目標がはっきりせず、"完了した"ということにたいする明瞭な定義がないので、プロジェクトの範囲がブレたり拡張され、コミュニティーの興味は移り変わり、そして何もリリースされない、という結果になってしまいます。その証拠に、Sourceforge 上の何百という死んでしまったプロジェクトをみてください。プロジェクト立ち上げの初日に、私たち開発者は、何が Subversion 1.0 で解決すべき CVS の問題点であるか、そして何がそうではないかについての明瞭な定義を列挙しました。もしこの議論を知らないのなら、残念なことです。それはfront page of the websiteにあり、何年にもわたり、私たちの変わらぬ指針でありつづけました。もし 1.0 後の機能の優先順位について影響を与えたいのであれば、プロジェクトの議論に自由に参加しコーディングの準備をしてください。 issue tracker と mailing lists にアクセスし、未実装のあなたのお気に入りの機能についての現在までの議論を見てください。どんな機能でも、あなたが最初に考え付いたのではないだろうと、かなり確信を持って言えますので。

最後に、私がネット上で見かけたいくつかの SCM の "比較表" について、ちょっと暴言めいたことを書きます。ぶちまけた話、いくつかの理由でこのような表の信頼性は非常に低いと考えています。それらの多くは特定の SCM システムのコア開発者によって書かれたものであり、客観的な比較ができるような人によるものではありません。意識的であれ、無意識であれ、議論全体はその開発者自身のシステムにとってもっとも重要な方法論や機能からみた構図になっています。また、別の場合、その表を書いた人は単なる情報収集屋です: その表は書物の評論のような具合です。その著者は動き回り、それぞれのプロジェクトの自分たちによる説明を読み、私たちのためにとてもよくまとまった要約を提供しているように見えますが、ある集団が設定した具体的な仕事のためにシステムを実際に利用した経験など、まったくないか、あってもほんのわずかなのです。最後に、このような表の背後にある仮定について個人的な反対意見を持っています。さまざまな SCM の機能はそれらがあたかも何かプラトン的な理想のシステムがどこかに存在してるいかのような列挙の仕方になっています: "完全なシステムと比較したときに、こいつらのシステムがなんぼの物か、調べてやろうじゃないか!" バカなやつらだ。完全なシステムなんてどこにも存在しないのに。それぞれのシステムは利点と欠点を持っていて、それぞれ異なる用途に対しては多かれ少なかれフィットするのです。どんな比較表も、あなたにたいしてどれが最良であるかなどと教えてはくれないでしょう。あなた自身が試してみなくてはならないのです。

Subverion はどうして Java や C++ のようなもっと新しい言語で書かれなかったのでしょう? どうして古臭い C 言語なんかで?

これは危険な議論です -- 誰もコンピュータ言語論争なんかしたくないのですから。私たちが C 言語を選んだいくつかの理由を書きます。私たちの開発者からのものを引用します:

可搬性です。C++ コンパイラは Cコンパイラほど標準化されていません。ある C++ コンパイラでの動作は別のものでは動作せず、C++ライブラリをリンクすることなど、夢ような話です。
C 言語が得意な、熟練したプログラマーは非常にたくさんいます。
C ライブラリ API はほとんどどのような言語からもアクセスできます。このような性質は Java にはありません。

可搬性がここでのポイントです。Subversion が C ライブラリの集合体として書かれていることは C 言語を使わなくてはならない、ということを意味するわけではありません。perl, python, Java, そして C++ などのための Subversion ライブラリバインディングがあります。これらはすべてサードパーティーのプロジェクトで利用することができます。

データベースバックエンドは危険すぎるし、不親切だ。データを直接ハックするってのはどうだろう? CVS なら、少なくとも RCS ファイルをテキストエディタで開くことができるのに。

RCS ファイルを直接いじるのは安全だといっているのですか? 質問をかえましょう: そもそもどうしてあなたは RCS ファイルをエディタでいじらなくてはならないのですか? どうしてあなたのシステム管理者は CVS リポジトリにあるファイルを直接いじるんでしょうか? 私の経験から言って、それはほとんどの場合CVS 自身によって生じたいくつかの欠点や困難をやり過ごすためだと思います。よく定義されたシステムではリポジトリを"ハック"する必要はないはずです。

ネットワークをまたいでよく編成されたデータを共有したい場合、今日一番オーソドックスにやる方法は何でしょう? 簡単です: データを(MySQLのような) データベースに入れてウェブインターフェースからアクセス可能にすればよいのです。それは古典的な LAMP ソリューションです。

Subversion は同じことをします: データをデータベースに格納しネットワーク越しに利用可能とします。誰も MySQLに重要なデータが入っていることでパニックを起こしませんし、MySQL データはエディタでハックできません。低レベルのデータが見たい場合はテーブルをダンプするためのデータベースユーティリティーを使えばよいのです。もしデータを移行したければ可搬で透過的な形式にダンプすれば良いのです。

私の友人が Subversion は死ぬほど遅いと言ってます。

ええ。確かにそうでした。われわれはずっと、スピードよりもデータの正しさについて多くの努力をしてきました。しかし2003年の終わりになってパフォーマンスの最適化についてかなりの時間を割けるようになりました。私たち自身のテストによれば Subversion 1.0 はスピードにおいて CVS にかなり近いところまで来ているといえます。

みろよ、Subversion 1.0 は夢のようなシステムってわけじゃないらしい。実際に使ってみて、どんな不具合を覚悟しなくちゃならないんだい?

嘘を言う気はありません。Subversion 1.0 にはいくつかの不具合がありますが宇宙が消滅するほどの時間をかけずに(Karl Fogelからの引用) そこそこ役にたつレベルのものをリリースするため、不完全な部分も含まれています:

エラーメッセージの多くがわかりにくい。それに頼って作業しているのに。
文字セット変換に失敗することはよくあります。リポジトリはすべてのパスとコミットメッセージを UTF8 で保存していますがクライアントは常に入力 UTF8 データを固有のシステムロケールに変換できるとは限りません。これらの不具合についてもっとまともな状態にして、UTF8 が問題なく利用できるようにする必要があります。
'svn diff' が履歴に従わない。Subversion は、ファイルやディレクトリのブランチ(コピー)がソースコードの関連履歴を管理する方法についてたくさんのノイズを入れてしまいます。しかし 'svn diff' ではなく、'svn log' を使えば実際の履歴を知ることができます。 svn diff に渡す適切な引数を見つけるために svn log を使うことによって、この問題を回避することができます。しかし、それはやはりまだみっともない問題であるとは言えます。
BerkeleyDB は注意深く扱う必要があります。一方でそれは、完全な SQL システムを設定するのではなく共有ライブラリ中のトランザクションデータベースを持つための非常に便利な方法ですが、もう一方でほとんどの機能はデータベースについては非常にいい加減です。もしリポジトリにアクセスするプロセスが(apache, svnserve, svnadmin, svn, などなど)すべての db ファイル上で完全な読み書き権限を持たない場合、あるいはプロセスが割り込み中断された場合には正しい状態に戻るために、データベースはロックしてしまい、ジャーナル復帰する必要があります。こうなっても別に大きな問題はありませんが、このような問題は、あまりシステムに詳しくないユーザの不注意の結果であることがほとんどです。"大いなる力は大いなる責任がともなう" -- しかしほとんどの人々はこの責任に気づいてはいず CVS リポジトリのように SVN リポジトリを扱うことでだめにしてしまいます。どうか本のこの部分を読んでください。(訳)そうすれば "教育を受けたユーザ" になることができます。そして、どうかどうか: あなたのリポジトリをネットワークドライブ上に置かないでください!

Subversion 批判に対する反論

Ben Collins-Sussman

sussman@red-bean.com

翻訳: 上平 哲 <tez@kamihira.com>

Subversion は構築するのが難しすぎるし、他のプログラムに依存しすぎて います。Apache が必要だと聞きました・・・立派すぎてやる気が失せて しまいます。

Subversion は新しさがない -- それは古い CVS モデルを踏襲している だけだ。なんで CVS を真似るんだ? どうしてつまらないものを洗練させる のにエネルギーを使うんだ?

Subversion が単に "改良された CVS" にすぎないのなら、どうして 1.0 を作るのに 4年もかかるんだ? いくつかの機能をちょっと CVS の上に 乗せるのがそんなに大変なのかい?

Subverion はどうして Java や C++ のようなもっと新しい言語で書かれなかった のでしょう? どうして古臭い C 言語なんかで?

データベースバックエンドは危険すぎるし、不親切だ。データを直接ハックする ってのはどうだろう? CVS なら、少なくとも RCS ファイルをテキストエディタ で開くことができるのに。