は図のように整理する。 • Hendrycksらは壊滅的リスク(catastrophic risk)と いうカテゴリーを提唱: • AGI特有のリスクはRogue AI。自律性を増した未来 のAIが、人間にとって制御不能になるリスクであ り、コントロール喪失(loss of control)問題とも。 Hendrycks, D., Mazeika, M., & Woodside, T. (2023). An Overview of Catastrophic AI Risks. ArXiv, abs/2306.12001. 図1-2 本稿が提案するAIリスク全体におけるAGIリスクの位置づけ (筆者作成)
科学者と哲学者+フィランソロピストによる「exsistential risk」の議論:フィランソロピー資金を背景に、英米の大 学にexistential riskを研究するセンターが複数設立し、AIリスクがその中心に。非営利組織Future of Life Institute (FLI)は、2017年には超知能に関する記述も含む「アシロマAI原則」を発表。 3. 効果的利他主義によるAIリスク論の推進:2009年頃から世界中に広がった効果的利他主義は、重要性(importance)、 改善の可能性(tractability)、看過されやすさ(neglectedness)の三要素からAIのリスクを重視し、活発に活動。 4. AGI企業・AIセーフティ系non-profitの台頭:OpenAIやそこから分岐したAlignment Research CenterやAnthropicにてAI セーフティ研究推進。近年、米国西海岸を中心に、AIセーフティに特化した非営利組織(non-profit)が次々と誕生。 5. 政府の取り組みとの連携:近年、英米の政府のイニシアチブとの接点が生じ始めている(例:米国AI Safety Institute はAGIのアライメント研究の第一人者であるPaul Christiano氏をhead of AI safetyに抜擢) • ChatGPTの衝撃で、分野の第一人者もAI脅威論に転向する動きあり(Yoshua Bengio氏、Douglas Hofstadter氏)。 • 人類を破滅に追いやるようなAIが出現する確率「p-doom」の議論も。ただし、物理学者のMichael Nielsen氏は絶滅の 確率(p-doom)を「概念的ハザード(conceptual hazard)」と指摘。
• AIセーフティ/AIアライメントをひとつの分野 (field)として確立しようとする自覚的な動き =「field building(分野構築)」。 • 1)オンラインを活用したコミュニティ形成、 2) AIに関する未来予測の共有、 3) AIセーフ ティの研究、4) 賞金コンテストといった活動が 相互に連携し、「認識的文化」を形成。 • 大口の資金提供者として、Open Philanthropy (効果的利他主義のグループ)、Jaan Tallinn氏 (Skype社の創業者として知られる起業家・投 資家)など。 Map of AI Existential Safety. https://map.aisafety.world/ Ahmed, S., Jaźwińska, K., Ahlawat, A., Winecoff, A., & Wang, M. (2024). Field-building and the epistemic culture of AI safety. First Monday, 29. https://firstmonday.org/ojs/index.php/fm/article/view/13626/11596
し、カリフォルニア大学バークレー校に進学、2022年にPh.D.を取得(6年足 らずで60篇以上のAI関連論文を執筆)。非営利組織としてCAISを設立。 • 研究、啓発活動(教材づくりや講演)、政策提言を実施。2024年のカリ フォルニア州AI規制法案の起草に深く関与。 ML Alignment & Theory Scholars (MATS) • 1)AIアライメントの分野で高い影響力を持つ研究者を増やすこと、2)そう した研究者を指導できる研究メンターを支援すること、3)研究者を Anthropicなどの企業のラボや、アカデミアのポスドク職に送り込むことを 目的とする。 • 過去6回のプログラムを実施し、213人の研究者と47人のメンターを支援。修 了生がGoogleやOpenAI、Anthropicに入社するルートをつくることで、キャ リアパスの構築とともに実質的なAGIセーフティへのインパクトを出そうと している。 AIアライメントネットワーク「【開催記録】ALIGN Webinar #1 Dan Hendrycks博士(Center for AI Safety)」(2024.5)https://www.aialign.net/blog/20240517 AIアライメントネットワーク「【開催記録】ALIGN Webinar #4 Dr. Ryan Kidd on AI Safety field building」(2024.6)https://www.aialign.net/blog/20240614
Torres氏は、米国西海岸を中心に展開するAIの加速主義とAGI脅威論(doomer)がテクノロジーによる ユートピア思想という点で同根であり、それらの立場にAI技術の未来をゆだねるのは「どちらも同様に危険であ る」との論を展開。 • 科学技術社会論などAI倫理(AI ethics)系の論者からは、AIによる「existential risk」というアジェンダが、AIに よって奪う人と奪われる人の差を隠し、より現実的で重要な議論からリソースを奪う、との批判も。英国のSTS (科学技術社会論)研究者のJack Stilgoe氏は、Science誌のコラムにてこうした論を展開し、昨年の米国大統領令 がx-riskに触れなかったのは健全だと述べた。 Torres, E. (2023.12). ‘Effective Accelerationism’ and the Pursuit of Cosmic Utopia https://www.truthdig.com/articles/effective-accelerationism-and-the-pursuit-of-cosmic-utopia/ Stilgoe, J. (2024). Technological risks are not the end of the world. Science, 384 6693, eadp1175 . 10.1126/science.adp1175