【gizmodo】
アメリカ、水不足なのに…。
すべての人類に大きな影響を与えると言われるAIですが、OpenAIのChatGPTやGoogleのBardなど、大規模言語モデルはエネルギー消費量が莫大です。
パワフルなプログラムのトレーニングには、十分なデータを提供する大規模なサーバーファームが必要です。そしてそれを行うデータセンターには強力な冷却装置が必要です。
GPT-3(最新版はGPT-4)をトレーニングするのに必要だった冷却水の量は、70万リットルにも上ったという最新調査があります。
米カリフォルニア大学リバーサイド校とテキサス大学アーリントン校の研究チームが、AIによる水資源消費について調査したレポート「Making AI Less ‘Thirsty’」を公開しました。
急速に進むAI市場に対し、エネルギー、水資源の視点から問題提起する声があがっています。
AI、水めっちゃ飲む
このレポートの中で、GPT-3のトレーニングに必要な水の量は、原子炉の冷却水タンクを満たせる量とほぼ同等であることがわかりました。
GPT-3のトレーニングにどれほどの期間を要したのかOpenAIは詳細について情報公開はしていないので、実際にどれほどの冷却水を必要としたかは難しいです。あくまでも予測値として考えてください。
OpenAIと提携し巨額な投資を行なっているMicrosoftは、AIトレーニング用のスーパーコンピューターを構築済みで、いわく最新マシンはグラフィックカード1万枚、プロセッサコア28万5000個搭載だというので、膨大な量の冷却水を必要とするのは間違いなし。
あまりにも数が大きくてピンときませんが、わかりやすく言うと、ChatGPT(GPT-3)を1人のユーザーが使うとして、25から50個の基本的な質問のやりとりに500ミリリットルの水が必要になるのだといいます。
すでに莫大な数字なのですが、ちょっと気になるのが設備の質とロケーション。今、AIモデルのトレーニングは、アメリカにあるOpenAIのために作られたMicrosoftのトップクラスデータセンターで行われているといいます。
もし、これをエネルギー効率があまりよくないアジアのデータセンターで行うとすると、水の消費量は3倍にも跳ね上がる可能性があるといいます。そして必要な水の量は、新しいモデルがでるごとに増えていくというのが研究チームの見立て。OpenAIからはGPT-4がすでにリリースされていますが、もちろん扱うデータセットは前モデルよりもより大きくなっています。
AIモデルのウォーター・フィットプリントはすでに見過ごせない域に達しているという研究チーム。「世界的な水問題に対する総合的な取り組みの1つとして、(AIモデルの)ウォーター・フットプリントを優先的に対応する必要があります」
AI→データセンターの水消費
研究チームによるAIの水消費量試算は、「取水」と「消費」を分けて考えられています。取水は、川や湖などから物理的に水を取り入れること。一方、消費はデータセンターに使用され蒸発することで失う水のこと。レポートで注力されているのは後者のリサイクル不可能な「消費」です。
サーバールームに入ったことがある人ならばわかると思いますが、ちょっと寒いです。パーカー羽織って入らなきゃというくらいには寒くなっています。サーバールーム内は10度から27度の幅内で空調が設定されています。
サーバールームの最大の課題は適切な温度を保つことなのですが、これは容易ではありません。外気温の影響はもちろん、サーバーそのものが熱を発するからです。データセンターでは効率的な冷却方法として、多くが気化冷却システムを導入しています。
サーバーの冷却を効率的にこなす気化システムですが、これにはたっっっっっっくさんの水が必要です。研究チームの予測では、平均的なデータセンターで1キロワット時ごとに1ガロン(約4.5リットル)の水がいるとのこと。
さらに、データセンターで使用されるのは綺麗な淡水でないといけません。設備の腐食やバクテリアを防ぐため、海水や使用済のお水ではダメなのです。また、淡水はデータセンター内の湿度管理にも必要です。
研究チームとしては、データセンターが消費する大量の電力を発電するために必要な水を「オフサイト間接的水消費」と呼び、データセンター全体の水消費量問題の一部として捉えるべきだと訴えています。
Googleの取り組み
水消費の問題はOpenAI、ひいてはAIに限った話ではありません。例えばGoogle。2019年、アメリカ国内3つの州でのデータセンターに23億ガロン(約87億リットル)の水を使用しました。Googleは北米に現在14のデータセンターがあり、これがGoogle検索やGoogle Workspace、最近はLaMDAやBard などの言語モデルの支えになっています。
ちなみに、LaMDA単体のトレーニングはGPT-3よりも多い、数百万トンの水が必要と言われており、これはGoogleのデータセンターがテキサス州など暑いエリアにあることが影響しています(研究チームから、あくまでも「おおよその参考値」であると注意コメントあり)。
水以外も使います
大規模言語モデルは、そもそも電力の大食いでもあります。スタンフォード大学人間中心人工知能研究所のレポートによれば、GPT-3のトレーニング期間に排出された炭素量は502トン。
GPT-3のトレーニング全体にかかった電力は、平均的なアメリカ一般家庭の数百年分…。専門家からも、近年のデータセンター競争は熾烈で、環境にとってベストな選択が常になされるとは限らないという声があがっています。
気候変動と干ばつ問題における懸念
世界経済フォーラムによれば、すでに米国内220万世帯は水不足やトイレなどの基本的な屋内配管設備の問題に直面しており、4400万世帯が不安定な給水システム下にあるといいます。
研究チームは気候変動と米国内の人口増加によって、今世紀末には水問題はさらに深刻化すると予測。スタンフォード大学の予測によれば、2071年までに、米国内に204ある淡水流域のうち約半数で、毎月の水需要量を満たすことができなくなると予想。今後50年で、多くの地域で水の供給量が1/3程度にまで減少する可能性もあると言われています。
米国内では、気温上昇にともない1000年に1度クラスの干ばつが発生(とはいえ、最近の異常な大雨で水不足の最悪状況は回避されたかも)。AI需要が急速に拡大し、テック企業があらゆるサービス・分野にAIを導入していけば、AIの水需要はますます拡大し、水不足を悪化させるでしょう。
研究チームのいう通り、今すぐにでもグローバル規模でAIのをウォーターフットプリントに取り組む必要があるのです。
AIの水使用量を比較的容易に減少させる方法はいくつかあるいう研究チーム。単純なことで、AIモデルのトレーニングをより適切な場所、適切な時間でやればいいのです。つまり、比較的涼しい地域、涼しい時間に行うようにすればいいってこと。サービスにもエネルギー効率時間という機能を設けて、真夜中の使用をユーザーに推奨するのもいいかもしれません。もちろん、同時に企業のエネルギー効率化&透明化を進める責任もあります。
研究チームは今回の調査を踏まえ、こう語っています。
AIモデル開発者、データセンター運用者は、より透明性を保つことを望まれます。いつ、どこでAIモデルのトレーニングが行われたのか? サードパーティーのコロケーションデーターセンターやパブリッククラウドでのAIモデルトレーニングや配置はどうなのか? このような情報は研究者たちだけでなく、一般の人々にとっても非常に価値があるでしょう。