オープン系ソフトウェア構成管理システム(SCM)へのコメント

by David A. Wheeler
March 6, 2004

翻訳: 上平　哲<tez@kamihira.com>
Original: http://www.dwheeler.com/essays/scm.html
Latest: http://www.dwheeler.com/essays/scm.html

Subversion 1.0 のリリースで、多くの人々がオープンソース/フリーソフトウェア(OSS/FS) 上で動くさまざまなソフトウェア構成管理システム(SCM) / バージョン管理システムの是非について議論しています。確かにこの問題は妥当な選択についての混乱を招いています: 現時点で利用できるさまざまな OSS/FS SCM があります。ここでは私が理解している SCM システムについて、役に立ちそうな情報を載せてあります; 私は三つの広く知られている選択について議論し(CVS, Subversion, そして GNU arch) 集中型SCM と分散型SCM の間の違いについて説明し、arch を利用して集中型の開発をする方法をしめし、他の調査についてのリンクを載せます。

CVS, Subversion, そして GNU Arch

私の意見では三つの OSS/FS SCM システムについてもっとも広く議論されています: それはCVS, Subversion, そして GNU Arch です。この他にもいろいろありますし、意図的に排除したわけではありません。他のものについては深く調べる時間がなかったというだけのことです(Monotone は特に非常に興味深いものだと思います)。しかし、ここにあげる三つの SCM を知ることは他のものを理解するのにも役立つと思います。それで、これら三つについて簡単な議論をします:

CVS は非常に広く知られていて、確かに役に立ちます。しかし、いくつかのひどい制約があり、時代遅れになりつつあるように見えます: 変更点全体のかわりにファイルごとの変更を追う形になっていること、コミットは不分割ではないこと、ファイルやディレクトリの名称変更はひどいことになっていること、ブランチを作ることについての制約は、タグを利用したほうが良く、そうしないとあとで障害が起こるであろうこと、などです。CVS の管理者はそのソースコードはあまりに難しく効率的に保守するのができないことを認めています。これらの問題は CVS の主な開発者に一から Subversion を作ることをうながしました。
Subversion (SVN) は新しいシステムで、CVS の単純な置き換えを狙ったものです。 Subversion は基本的に CVS を再実装したものですが、まずい部分を修正した上で、基本的には同じ方法で動作します(つまり集中型のリポジトリをサポートしています)。 CVS のように subversion は開発者に集中型のリポジトリをサポートすることが目的であり、分散型開発はうまく扱うことができません。 svk projectは Subversion で分散型開発をサポートするような拡張です。
技術的な観点から見ると、確かに subversion の決定のいくつかについては議論のあるところです。たとえばそれは期待するようなチェンジセットを直接サポートしないことでその集中型モデルに問題をおこしています。しかし技術的な進歩と使い勝手とは別のことです; 多くの人々にとって subversion は多かれ少なかれ自分たちが期待するようなインターフェースになっていると考えられます。データを保持するのに利用されている Subversion の (より安全な普通のファイルを使うのではなく、)db の利用方法についても考えものです。というのはある状況ではこれは身動きが取れなくなる可能性があるからです。現実問題としてはそれほど悪いものでもないように見えます (データを抽出することができるからです)が、確かに人によってはこのことを心配しています。Subversion は BSD の古いライセンスを使っていて、 OSS/FS とは違い GPL互換ではないのは残念なことです。 ( GPL非互換性は問題を起こすかもしれません). Subversion は制限なしにその他の GPL ソフトウェアを保守するのに利用することができます。 Subversion はたくさんのライブラリとプログラムに依存しているので (ちょっと大きすぎると感じる人もいます)現時点ではインストールに少し苦労します; (Linux/FreeBSDなどの)ディストリビューションはおそらくすぐに subversion を取り込むと思われるので、この問題は比較的早くなるなるでしょう。 Subversion 本にはより多くの情報があります。
CVS を利用し、もう少しましなものに簡単に移行したいと考えているなら Subversion は最も単純な方法だといえます。CVS と非常によく似た形で(特に集中型リポジトリを通じて)どのような認証形態でも開発者に対して共有されたリポジトリを直接修正することを可能にします( これは実際の修正を記録することでロールバック可能な仕組みがあるからです)。Subversion の目的は: CVS の改良です。
GNU arch は非常に興味深い競争相手で、それは CVS や Subversion とは全くことなる形で動作します。GNU arch は完全に分散されており、それは分散開発(Linux カーネル開発プロセスのような)でうまく利用できます。データのとり扱いについて非常に賢く、また単純な方法をとるため、他のいろいろなツールと協調して利用することが容易です。この賢さはクライアントツールの中にあり、サーバ側にあるわけではないので、単純なセキュア ftp サイトや共有ディレクトリをリポジトリとして利用できます。強力な SCM システムとしての不思議な性質を持っています。他のプログラムとの依存関係も単純なので簡単にインストールすることができます。
分散開発には強みがあります。特に別々の人々が独立して別々のアプローチをとり(たとえば独立したブランチやフォーク)、あとでマージするような場合です。このスケーラビリティーの良さと"適者生存"環境のサポートがLinux カーネル保守にとって分散開発手法が重要になる理由です。 Arch はまた集中型開発にも利用することができますが、これについては後で述べます。
確かに、いろいろ不満もあるのですが、私は arch がとても気にいっています。非常に多くの強みがあるのに、どうして私が問題を感じるか不思議に思われるかも知れません。そこでこの問題について議論したいと思います。
arch の深刻な弱みは Windows ベースのシステムではうまく動作しないところです。また今後そうしていくかどうかが不透明です。arch の移植はネーティブではないもの(Cygwin と Services for Unix)と、ネイティブのものもあるのですが、現在の win32 の移植は初期段階にあるだけで、 Arch の wiki 上の Win32 ページでは "Arch は非POSIXシステム上で動作するように意図されたことはない。Microsoft コンピュータ上で arch がうまく動くことを期待するな。" とあります。少なくとも問題の一部は arch で内部的に利用されている長いファイル名です; arch は確かに修正を必要とされていますが、その方向に向かって大きな動きはないようです。他の問題としては 2004 年 3月時点での一般的な移植の問題の中でシンボリックリンク、ファイルパーミッションの扱い、改行の問題があります。人によっては Windows のサポートが貧弱であるのは問題であると考えてはいないようです; が、私にとっては(そして他の人にとっても)、そしてどさくさにまぎれて Tez にとっても、これは深刻な問題です。Microsoft Windows システムを利用していないとしても、人はいろいろな異なる SCM システムを利用したくはないはずであり、ある SCM が多くの環境でサポートされており、べつのものがそうではないなら、ひとは多くの環境をサポートしているものを使うでしょう。私は GNU arch の利用はこのサポートの貧弱さが続く限り妨げられると思います; 良いネイティブの Windows サポートは SCM ツールにとって非常に重要です。
2004 年の 2 月にArch はファイル名称を含むいくつかのひどい弱点があります。ファイル名称中の空白をまだ扱うことができません。これは大きな欠点です (ただしこれは最終的にはすぐ修正されるものとしてスケジュールされて います)。さらに基本的なことですが、Arch は極端に奇妙なファイル名規約があり、それがスクリプト、コマンドラインからの利用、そしていろいろな普通のツールでの利用に問題を起こします。 "+" プレフィックスは vi, vim, そしてページャー more のようなありふれたツールで問題を起こします。 (特にこれはログ情報の変更を入力するときに問題になります - どうしてこの世で最も広く利用されているテキストエディタの一つにとって不便な規約があるのでしょうか?)。この "=" プレフィックスは bash のファイル名補完のバグも顕在化してしまいます(このバグは最終的には bash では修正されるでしょうが、バグのある実装はしばらくそのままでしょう。というのは、このような利用は非常にまれであり、bash は多くのシステムでデフォルトシェルとして動作しているからです)。また、こちらはもう少し小さな問題ですが、Arch は"{arch}"ディレクトリにデータを格納しますが、 "{}"文字は多くのシェル(特に C シェル)で問題をおこします。特別な意味を持っているからです("*"のようなファイル名のグロブ文字になります)。たとえば C シェルでは "cd {arch}"とか"vi {arch}/whatever"とかを実行できません; ディレクトリ名を引用符でくくる必要があります。この問題はファイル名規約が悪いということではありません; ほとんどの CM システムはそうなのですから!。問題は arch で選択されている規約の一部は通常利用するツールと干渉してしまうように設計されているということで、通常のツールを利用するにあたってさまざまな回避策を使う必要があるということです(たとえばファイル名の前に"./"をつけるとか、"--"オプションを使うとか)。これは GNU Arch の根底にある考え方が他のツールとうまく協調して動作することであることを思うと残念なことです。このようなまずい規約はいますぐ簡単に修正できるようなものではないだろうと思いますが、常に希望はあります。いくつかの場合デフォルトを上書きする方法がありますが多くはありませんまたツールは良い規定値を利用すべきです。これはとても残念なことです。というのは arch の基礎にある設計は、特定のファイル名規約が要求される部分など全く存在しないからです。
GNU arch では低レベルコマンドを使ってさまざまな制御することが可能ですが実際には自動化したい処理のいくつかについてはまだ自動化されていません。多くの普段利用する操作は、ほとんどの人々にとって一つのコマンドを標準的なオプションで実行するかわりに複数のコマンドを入力する必要があります。GNU arch で一つのアーカイブを長い時間使うと最終的に非常に多くのデータが蓄積され、作業が不便になってきます。 arch's 開発者はアーカイブ中に時間と日付を入れることで分割することをすすめています。私はこのような蓄積物の扱いは面倒なことだと考えています: このような手で行う作業はまさに SCM が自動的に処理すべきことだと思うのです(たとえば、おそらくarch はやろうと思えば一年以上未利用のブランチをデフォルトで隠すようにできるでしょう)。 Arch はすばらしいキャッシュの仕組みを持っていて、特定のバージョンについてのアクセス速度を上げますが、キャッシュは手で作成しなくてはなりません(デフォルトではツールは自動的にキャッシュを生成すべきであり、自動的に生成した古いキャッシュを削除する場合もそうです)。 Arch は NFS 上に {arch}ディレクトリがあると遅くなります; Arch はユーザに意識させずにこの遅さを検出して自動的に別のストーレージを探しだそうとすべきです。多くの arch 開発者は同じような高レベルの特殊なスクリプトを作ってこのような処理をしているようです。しかしここに間違いがあります: 共通の処理を自動化するツールを自分で書く必要はありません。SCM はそれを含めるべきです。つまり、自動化と適切なデフォルトオプションによって通常の処理を"正しく実行すべき"です。これは良い知らせですが、arch 開発者はこの問題に気づいており修正しなくてはならないと考えています。"rm"(削除)コマンドは id とそれに対応するファイルの両方を自動的に削除します(別々に削除するかわりに); しかしこれは 2004/2/23 になって初めて追加されたものであり明らかにこの作業は始まったばかりです。自動キャッシュ管理機構についてのドキュメントが望まれます; それはまだ書かれていません。ミラーの仕組みは賢いものですが、ミラーをダウンロードして修正する場合その変更をコミットすることはできませんし、arch はそれをうまく支援することができません。 undo と redo を使った回避策がありますが、ミラーからダウンロードした場合でもコミットできるようにすべきです。
Arch は時には許されていないような危険な、あるいは問題のある動作を許しています。たとえばブランチはコミットベースのブランチ (base-0 以下のすべてのリビジョンがコミットで作成されるようなもの) であるかタグリビジョンブランチ(すべてのリビジョンはタグで作られる) かのどちらかであるべきです; そうしないとマージコマンドがうまく動作しませんが、ツールはこの制限を強要していません。tla のツールはまだ保留中のマージ拒否ファイル (.rej 拒否ファイル)がまだあるかどうかを確認しないので、commit, update, replay, star-merge は作業領域で交差してしまいます; ユーザは間違いを犯すものであり、 SCM システムはそれからデータを守るように動作する必要があります。
ユーザインターフェースにも問題があります。悪夢のようですが、"mv" と "move" コマンドは別のことをします: "mv" は id とファイルの両方を移動しますが、"move" は id のみを移動します。このユーザインターフェースは混乱のもとです: なぜ "move"と"mv"を同じにして"mv-id" を id のみを操作する唯一のコマンドとしないのでしょうか? 多くのコマンドには別名があり、それがドキュメントを不要に複雑なものにしてしまっています。
arch のドキュメントは貧弱でもっと作業が必要です: これは特に残念なことで、ドキュメントの問題は今日から使ってみようとする初心者に障害となるからです。しかし、オンライン上で利用できる情報を注意深く読めば arch の基本的な使い方には十分かも知れません。ドキュメントの多くは低レベル層の実装の詳細を強調し( たとえば、ローカルファイルシステム中でコマンドがどのように実装されるかというような)　より高レベル層にはそれほど触れていません。ドキュメントの一部は別名を強調していますが、これは非常にイライラします; もし "add" と "add-id" が同じことを意味するなら、単に "add" をドキュメント化すればよいのです(そしてあとで読まなくて良いような注の中に別名の一覧を書けばよいのです)。場合によってはドキュメントはソフトウェアが本当にしていることにあわせて更新する必要があります。 The on-line tutorial at the FSF GNU arch website にあるオンラインチュートリアルは、とっかかりとはしては良い場所で、より詳しい情報を得るには Arch Wiki が非常に良い場所です。
総じて GNU arch は現時点では subversion ほど成熟してはいません。その実装はもっと噛み砕く必要がありますし、奇妙なファイル名の制約は修正されるべきで、自動的にやって欲しい最適化を手でやらなくてはならないような場所があります。すでにのべたように、コマンドはしばしば低レベルのものです; それはさまざまな単純なコマンドであり、デフォルト値あるいは組み込みのコマンドとして実装すべきものを手で設定しなくてはなりません。そしてドキュメントをもっと充実させる必要があります。
しかし GNU arch がこのような問題を長期間にわたって持ちつづけるとは思わないでください。ほとんどのものは短期的なものです。問題の多くは単に GNU arch が subversion のようなほかのツールほど成熟する時間をもてないでいるということにすぎません。私がこのような問題を書いたのは実際 GNU arch はやらなくてはならないことがたくさんあるからです。私の意見では GNU arch 開発者は単純さ、デザインのオープン性、その力 (複雑な状況に対処する能力)を強調し、今のところ使いやすさ(特に単純な状況における使い安さ)にはあまり注意を払っていません。そのため上に挙げたような問題はあるにせよ、GNU arch は極端に強力で基本的なコンセプトは実に柔軟です。より多くの時間とGNU arch 上に構築されるツールがこのような問題を解決してくれるでしょう。 Arch はまた Free Software Foundation (FSF)によって支援され、その Savannah システムによって直接サポートされています; これは成功を保証するものではありませんがそのような支援はよくユーザや開発者をプロジェクトに参加されるものであり、それによって成功の可能性も増すでしょう。 GNU arch ははっきり言って問題に対する非常に面白いアプローチをとっており、さまざまな問題を解決するでしょう。

集中型 vs. 分散型 SCM

すでにおわかりのように、SCMシステムの動作原理には二種類の考え方があります。ある人たちは SCM システムは集中型リポジトリを制御することが第一目的であり、集中リポジトリをサポートするツールを設計すべきだと考えています(CVS や Subversion がそうです)。他の人たちは SCM は独立した開発者が非同期に作業し、その後、同期をとりお互いに変更点を反映するので、開発ツールは分散アプローチをとるべきだと考えます(GNU arch, monotone, darcs, そして Bitkeeper)。あるアプローチをサポートするために作られたツールは別のアプローチをサポートするためにも利用することができますが、それでもこの基本的な違いを理解するのは重要です。

一方でサポートされているツールはしばしば、すくなくともある範囲でもう一方でも利用することができます。概念的に分散アプローチをとると大きな困難なしに集中型アプローチの完全な実装ができるはずです。しかし、このような"別のアプローチ"のサポートが、同じ問題をネイティブにやるのと同じくらいツールが良くできているかどうかは私にははっきりしません。特に集中型システムが分散開発をサポートする場合がそうです。 Subversion には svk という subversion 上に作った分散 SCM システムがありますが、subversion の上の svk の実装は分散 SCM システムを作るには非常に重たい方法であり、ネイティブの分散 SCM システムを実装するよりずっと大変です。 GNU arch は簡単にリポジトリが実装されているディレクトリの読み書きアクセス権限を共有する開発者を作ることで集中型リポジトリをサポートすることができますが、セキュリティに関する以下の議論を見てください。 (ユーザによってリポジトリを直接制御するため). また、 arch-pqm というツールがあり、これは私のセキュリティの心配のいくらかを軽減してくれるものですが、まだ GNU arch に統合されてはいません。さまざまなプロジェクトの支援者のすべては"自分たちの側" がもう一方のアプローチをサポートするのに十分であると感じているようですが。別々のプロジェクトが"もう一方の"アプローチをよりうまくサポートする努力をつづけてもらうことを期待しています。これによって数年以内にこの違いは本当にささいなものになるかもしれません。

A posting by Bastiaan Veelo at Linux Weekly News は良い要約になっています:

"しかし最も重要なのは Arch と Subversion は異なる基本的な原理の上にあるということだ。Arch は分散型で動作し、Subversion はクライアント/サーバモデルで設計されている。確かに Arch を使えば最初にサーバにアクセスすることなしにバージョン管理システムを使ってソースコードを書き始めることができる。しかしコードを主系にマージするのは一人のプロジェクト管理者によってされるだろう...
Subversion(そして CVS も)による開発は一つのリポジトリしか存在しないという意味で集中型であると言えるが、実際には社会的な意味ではもっと分散している。というのはリポジトリに書き込み権限をもつ開発者と同じくらいの多くの、コードを統合するための人間がいるからだ。
手短にいって、 Arch はコードの統合する人に関して集中しており、 Subversion(CVSも)はリポジトリに関して集中していると言えるだろう。どちらが合っているか決定することができる。もし CVS のヘビーユーザであれば Subversion がぴったりだろう。

Arch を集中開発で利用すること

すでにのべたように概念的には分散システムは集中アプローチを完全に実装することができるはずです。私はGNU arch を使って複数の開発者の集中リポジトリをサポートするためのおすすめの方法について少し考えました。いくつかのツールは私の考えを取り入れているようですが、現実的な利用にはもっと努力が必要です。

GNU arch wiki サイトはどのようにに arch を集中型で利用するかについての基本的な情報があります。 GNU arch で集中リポジトリを実装するのはやさしいことです: 集中リポジトリを作るのに共有ファイルシステム(たとえばセキュア ftp)に対してすべての開発者に読み書きアクセスを許すのが一番簡単な方法です。 "リポジトリ" はある意味ですべての人が書き込むことのできる偽のユーザということになります。お互いに保護する必要のあるたくさんのプロジェクトリポジトリを管理するシステムはこの分離機構を提供するためにユーザとグループを(プロジェクトごとに)定義する必要があるでしょう。これはささいな問題に見えるかも知れません(システム管理者や特定のグループ管理ツールが新しいプロジェクトやプロジェクトに参加する新しい開発者があらわれるたびに必要になります)し、大きな問題かも知れません( オペレーティングシステム制御を徹底的にテストしアプリケーションレベルの制御よりもずっと信頼できるものにする必要があるかも知れません)。１度設定すればこのシナリオには確かに多くの利点があります。たとえば、複雑なサーバを構成するよりも共有ディレクトリの設定は簡単であることが多いです。

しかし、arch をこのような方法で使う場合には問題もあると思います。このアプローチはすべてのクライアントは"完全に動作する" ということを仮定しているからです; もしたくさんの開発者がいる場合、古いクライアントを使っている何人かの開発者のものにはバグや意味上の違いがあるかも知れず、リポジトリ全体を破壊してしまうかも知れません。もっと重要なことには、開発者と攻撃者、これは一時的に開発者の特権を手にしたものですが、これを区別することができません。開発者は共有リポジトリに対して完全な読み書きアクセスを持っているため、悪意のある開発者(あるいは開発者の認証を奪った攻撃者) は共有の arch リポジトリを傷つけることができ、リポジトリの状態を期待されるとはまったく別の状態に変更してしまうことができます。これに対処しなければ悪意のある開発者や、特権を得た攻撃者は変更点を明らかにしないで悪意あるコードを挿入することができてしまいます。あるいは修復不能な形にデータを消去してしまうかも知れません。明らかに悪意ある開発者が悪いのですが、SCM システムは常に誰がその悪意あるコードを挿入したかを特定できるべきであり、SCM の履歴の完全性を保護すべきですが、それを使えば変更点は簡単に元に戻すことができるからです(そして必要に応じて再チェックすることもできます)。今日のような不信の時代にあっては、よく本当には知らない人と共に作業しなくてはならないので、悪意ある攻撃に対する保護は重要になります。

集中リポジトリ用に推奨される GNU arch の設定はすべてのユーザがひとつのアカウントを共有するというもので、オペレーティングシステムと arch はログインした人を実際には区別することができません。ユーザが個別に認証できるように共有ディレクトリのリポジトリを設定し、それから共有ディレクトリを(グループの仕組みを使って)設定することはできますが、それだとユーザは間違って(あるいは意図的に)アクセスビットを変更してしまうかも知れず、その後別の開発者はそのファイルを読んだり書いたりすることができなくなってしまうでしょう。そこで推奨のアプローチはクライアントが間違った振る舞いをすればいろいろな不具合がおきるか、さもなければ開発者をあまり信じないかです。でなければ攻撃者は開発者の特権を得てしまうかも知れません。

バックアップを取った後であれば、バックアップとオリジナルを比較することでリポジトリの履歴に対する悪意ある修正を検出することができるかも知れません。バックアップはまた人々に悪意ある変更を正しいバージョンで置き換えることを許すでしょう。しかし、arch は現時点ではこのチェックを自動的にやるようなツールを含んではいません。(arch のミラー機能をこの用途に利用できるとは思えません。arch のデータ自身が疑わしいのですから。) それで arch がそのようなツールを追加するまではこのようなことをするには arch の内部をよく理解する必要があります。このアプローチは犯人が特定の開発者のふりをしてログインすることが求められた場合でも誰が悪意ある変更をしたかを特定することはできません。しかしより重要なことは、悪意ある開発者が悪意ある変更を加えたあと、それが別の誰かがやったように見せかけることはたやすいということです。バックアップは追加された点を教えてくれるだけで、その追加が正しいかどうかは教えてくれません。バックアップは確かに有用ですが、攻撃者はそれを回避することができます。

この問題に対する、また別の部分的な(しかし重要な)解決策は新しい signing archives の機能でこれは arch 1.2 で追加されたものです。アーカイブを "signed" にするように選択することができ、変更は暗号学的に署名されます。これについては少し調べました(サインの仕組みの詳細を理解するのにColin Walters の助けを借りました。 arch が MD5 ハッシュでサインするのは暗号学的には SHA-1 ハッシュよりもずっと弱いのですが、確かに何もサインがない状態からは一歩踏み出したことになります。サインつきアーカイブの設定にはより多くの努力が必要になります( たとえばすべての開発者の公開鍵が必要になります)が、セキュリティを考慮したシステムでは良い方法になるでしょう。署名は変更点と共にリビジョン番号にもサインするので(それらは両方とも tar ファイル中に埋め込まれているため)攻撃者はパッチ順序を変えることはできず、検知されずにパッチを削除してそれより後のパッチの番号を振りなおすことはできません。しかし、そのような署名は(少なくとも現在の実装では)、サインされたパッチ全体を置き換えるのを検知できないように思えます(たとえば以前のセキュリティ修正をセキュリティ修正のないものでこっそり置き換えるような場合)。あるいは誰も利用しない前に"最新"の修正を消してしまうようなことです。バックアップとは違い、署名は多くの問題を外部の情報と比較すること なしに検出することができ(そのため問題を早期に発見できるでしょう)、またすでにツールに組みこまれているので、利用される可能性が高いでしょう。多くの開発者にとってバックアップとサインつきアーカイブは十分です。しかしこの仕組みは依然としてある種の悪意ある変更を明らかにしません (削除と置き換えのような場合)。本来であれば開発者はこれを知ることができなければなりません。

Arch-pqm (パッチキューマネージャー) は分散ツール上に集中型リポジトリを作るための arch の拡張で、コミット要求などをキーに入れてから自動的に実行します。 Arch-pqm はまず要求中にある GNUPG サインがそのリポジトリに対する許可された開発者であるかどうかを確認し、そうでなければ要求を拒否します。これは CVS や subversion のような集中型のツールの動作アプローチとよく似ています。arch-pqm の開発者Colin Waltersとemailで何度か話しをし、arch-pqm は単にリポジトリの履歴を保護するような操作のみを認めていることがわかりました。特にarch-pqm は新しい変更をマージするためのスターマージ、キャッシュ、キャッシュの取り消し、新しいカテゴリ・ブランチ・バージョンの作成、そしてタグづけのようなもののみをサポートしています--どの操作もリポジトリの履歴を消すことはありません。

それで現時点では、サインつきアーカイブ、バックアップ、そして arch-pqm の組み合わせによっておそらく私の心配は解決するだろうと思います。 Arch-pqm はリポジトリにアクセスする権限のある任意の開発者が既に固定されてたリポジトリ内の値を好きかってに書きかえることを防ぎます。サインつきアーカイブとバックアップとの比較は攻撃者が arch-pqm を攻撃したり回避したりした場合リポジトリに対する悪意ある変更を検出し、修復することが可能になります。悪意ある開発者の修正は常に彼らのものとして正しく記録され、あとで戻すことができます(彼らの変更点に必ずサインすることを約束しておくことによって)。そして少なくともインフラストラクチャが他の方法ではできないことを検出するので私の心配はなくなります。(??) 注意: 私はセキュリティの解析を詳細にしたわけではなく arch-pqm はこのセキュリティの問題のために最初から特に設計されたものではありません。たとえば、ファイル名を追加するか設定を変更しようとすれば、この保護を破ることができるかも知れません。あるいはバッファオーバーフローや、その他このチェックを潜り抜ける方法があるかも知れません。それでも基本的なコンセプトは良いものであると思われますし、少なくともある種のセキュリティはこの設定で保たれるでしょう。(??) 残念なことに、arch-pqm の利用はまだ arch　には組み込まれてはおらず、バックアップチェックもそうです。それでこのアプローチをとるには「ちょっとした努力」よりは大きな努力が必要です。またドキュメントはこのような設定の方法について説明していません。

現時点で Arch は署名のサインをサポートしているとは思いません。言い換えると、もし B が A の作業を受け入れ、C が B の作業を受け入れた場合(それはAの作業を含んでいるわけですが)、私は A による A 自身の署名を見ることになり、 B のサインは彼らが A の作業を受け入れたことを示すべきです。公平にいって、ほとんどの SCM ではこれをサポートしていません。しかし集中システムでは時刻による同等の機能を持たせることは簡単です; 分散システムはこの種の情報をよりたくさん記録すべきです。それは信用できる中心になる場所が存在しないからです。

Colin Waltersはまたサーバ機能をサポートする "arch" 用の"スマートサーバ"である "archd" を作っています。ある意味これは arch-pqm と似たコンセプトです; それは認証されたユーザからの SCM コマンドを自動的に実行するものだからです。しかし archd は email を利用するかわりにデータ転送用に特別に設計されたプロトコルを使っています。それは同様の保護機能を持ち(実行できるコマンドは制限されています)、もし正しければ同じことが言えるでしょう。しかしそれは今後のことになります。現時点ではまだ利用できません。

すべての SCM において、悪意ある開発者について心配するのであればだれが"フック"を定義できて、実行するときにどのパーミッションで実行されるかに注意しなくてはなりません。 GNU arch がコマンドを実行するときには常に GNU arch はプログラム~/.arch-params/hook を実行します(存在していれば)。これによって追加の動作を実行できます("それをフックといいます")。言い換えるとフックはユーザごとに定義されるものでありプロジェクト単位にではありません。このデザインはセキュリティの観点からは有利です; フックは通常、管理されているプロジェクト領域の内部にあるわけではない ので、ファイルの編集によって新しいコマンドを実行するように SCM をだますことはできません。しかし、もし共有リポジトリがあるならこれは欠点になります。というのは共有リポジトリはあることを強制するようなコマンドを実行できないからです(たとえば、コンパイラのワーニングがないこと、後退テストを実行すること、emailによるアナウンス、あるいはチェックインする前の二人の人間による承認、など)。これもまた arch-pqm またはスマートサーバによって解決することができますが、それはサーバが自分自身の環境内でフックを実行できるからです。

その他の OSS/FS SCM システムと、他の人による評価

他にも OSS/FS SCM システムは存在し、それはたとえば Monotone, Aegis, Darcs, そして Vestaなどです。私はあえてこれらを排除しているわけではありません; 単に調べる時間がなかっただけのことです。どれかひとつの SCM システムを選ぶ前にいろいろな代案を調べてみるべきでしょう。

Monotone 特に興味深く思われますが、それは分散 SCM とは異なるアプローチを取っているからです。 Shlomi Fish が言うように、 "チェンジセットは預かり所(depot)に入れられ(それはCGIスクリプト、 NNTP ニュースグループやメーリングリストのようなものかも知れませんが) ます。depot とはさまざまな場所からのチェンジセットを集めておく場所です。その後、開発者ごとに良いと思われるチェンジセットを自分だけのリポジトリにコミットします... Monotone は SHA1 チェックサムを使ってファイルとディレクトリのバージョンを特定します。そのためファイルがコピーあるいは移動された場合でも、サインが等しければ検出することができ、この両者のコピーをマージすることができます。またそれは、できる限り CVS をエミュレートしようとするコマンド群があります。" Monotone は最近特殊なファイル名称を扱うという問題のいくつかを修正しました(これは SCM システムでは共通の問題です)。 Monotone がセキュリティ、明瞭なコンセプトに重点を置いていることは他の SCM も考慮すべきかも知れません。 Monotone のアプローチは3方向マージとSHA-1ハッシュに基礎をおいています。Monotone の人々は Arch のアプローチは Monotone のそれよりもいくらか弱いと考えていますが、Monotone はある種の "チェリーピッキング"のサポートについては Arch ほどすぐれてはいません。 ("チェリーピッキング"とは、好きな修正点だけを選択的に取り込むことです-tez) (Monotone FAQ に、より詳細があります)。 Monotone は GNU arch ほど知られていません(Google のリンク数によれば) が、知るべき価値のあるシステムです。

ほとんど理解していないためいくつかの SCM プログラムを試してはいませんが、他のものも見てみましょう。 Aegis はルートで実行することが必要で、セキュリティ的には非常に弱く、私はすぐに利用をやめてしまい、インストールが非常に難しいという報告でそれ以上調査する興味をもてなくなりました。 Vesta は完成度が高いと言われていますが、Vesta を構築するには Vesta 自身しか利用できないので、新しいユーザや開発者をひきつけるのは難しいだろうと思っています。 RCS はずっと古く(SCCS もそうです); そのロックを基礎とするアプローチは今日の早い開発サイクルと大きな開発者グループにとってはあまりうまく動作しません。Bitkeeper は強力ですが、OSS/FS ではないので、この文章の範囲外としました。

darcs についても少しコメントしようと思います。見たところ、darcs は現時点では SCM の非常に革新的なアイディアのプロトタイプ以上のものであり、利用可能だとしても大きなプロジェクト用の有用なツールというよりは、小さなプロジェクト用のツールとして有効かも知れません。 Darcs は Haskell で書かれており、それは強さと弱さをもっています。 Haskell は高級関数プログラミング言語でおそらく抽象的な概念の上で開発者が集中できるような助けとなっているかもしれません。しかし、Haskell は興味深い言語ですが、それによるプログラムは一般的に処理が遅く、darcs の開発者も darcs のパフォーマンスがあまり高くないことを認めています(プロジェクト規模が大きくなるとこれは問題になるかも知れません)。しかし 2004 年 3 月時点で、少し改善されたようです。関数プログラミングが得意な開発者は非常に少ないので darcs はそれを拡張しようと言うほかの開発者を得るのが難しいようです。 (貢献する人もいますが、Subversion や GNU arch とは比べ物になりません)。 Darcs のウェブサイトによればそれは、"豊富な機能がある"とは言えずその"コア部分はまだバグがある"とのことです -- 自分のソースコードを管理しようとするときに聞きたくなるような言葉ではありません!。主な開発者はウェブサイトは古いと言っており、プログラムにはもうそれほど多くのバグはなく、基本的な SCM の処理以上のものをサポートしている (いくつかの機能は欠けているにせよ)とのことです。しかしdarcs にはいくつかの革新的なアプローチがあり、そのコンセプトの一部は次世代 SCM システムで利用されるかも知れません。 Darcs は完全にパッチ指向のシステムであり何が変更されたかを示す入力をユーザに求めます。たとえば、darcs は"文字列置換パッチ"を理解することができ、これは変数のすべてのインスタンスを変更するようなパッチにすることができます。たとえば ``stupidly_named_var''を ``better_var_name''で置き換えるが、``other_stupidly_named_var'' には触れない、といった感じです。作者によれば、 "このパッチが``stupidly_named_var''を含むような別のどのようなパッチとマージされる場合でも、そのインスタンスは``better_var_name''に置換されるでしょう。これは、新しい変数のインスタンスの変更に失敗するだけではなく、その変数を含んでいる行を修正するどのようなパッチをマージする場合にも衝突が起こるかも知れないような伝統的なマージの方法とは対照的です。プログラマの意図についての追加の情報をもっと利用することによって darcs は本当は簡単な変数名の置換のような処理を実際単純にすることができるのです..." 有利な点はマージの衝突はすぐに消えてしまうかも知れないことです; 不利な点はこの要求はすでに複雑な問題を抱えている開発者に対してより多くの対話的な入力を求めます。このアプローチがウケるかどうかは見てみなくてはわかりません; 私は怪しいと思います、というのはそのような機能を持たないシステムが多くの開発者に受け入れられているように見えるからです。

他にもさまざまな SCM の比較があります。 better SCM initiative は、OSS/FS SCMシステムを改良を働きかけるために設立され、それらについて議論し比較しています。他の情報と共に comparison fileを見てください。 Shlomi Fish's OnLamp.com article compares various CM systems と、彼の Evolution of a Revision Control Userを見てください。 arch の人々は a comparison of arch with Subversion and CVS を書いています( もちろん、arch 寄りです)。他の arch に肯定的な議論としては Why the Future is Distributed。 subversion に肯定的な議論としては Dispelling Subversion FUD。 Slashdot had a discussion when Subversion 1.0 was announced. Kernel traffic posted a summary of a technical discussion about BitKeeper. Brad Appleton has collected lots of interesting SCM links. A brief overview of SCM systems that can run on Linux is available.

私はバグトラッキングシステム(Bugzillaなど)のような関連した議論はしませんでした; これはここでのテーマの範囲外です。

結論

OSS/FS SCMシステムの世界は数年前よりも良い環境になっています; いまではいくつかの選択肢があるからです。 CVS はいろいろ欠点もありますが、いまだに基本的な作業で利用することができます。 Subversion はCVS よりもよい作業をしたい人には現時点ですぐに利用できるものです。 GNU arch は上にあげた問題を理解して利用するなら非常に高性能です。 (そしてそれはますます良いものになるでしょう)。他のプロジェクト上で subversion を使うことをいとわないにせよ、個人的にはGNU arch を使おうと思います; 欠点は多いですが、すぐに修正されるでしょうし、GNU Arch には非常に大きな展望があります。すでに議論したように他の選択肢もあります; Monotone は特に興味深いものです。以上の文章がみなの役にたってくれればと思います。

http://www.dwheeler.com にある私のホームページには自由にアクセスしてみてください。