研究をするAIへ向けて

研究をするAIへ向けて高木志郎＠第28回汎用人工知能研究会 2024/12/20

機械学習研究が自律的にできるAIとは何か (5分) 1. これまでどのような取り組みがあるのか & 現在どこまでできているのか & どのような課題があるのか① (30分)
2. どのような課題があるのか②：研究とは？ (5分) 3.

機械学習研究が自律的にできるAIとは？

機械学習研究が自律的にできるAI

新しい知識抽象的には「機械学習に関する新しい知識」を自律的に生産するAI

わかりやすくいうと「テーマ決定から論文執筆査読などなどの研究に必要な全てのタスク」を全部実行するAI Objective Solution Implementation Experiment Plan Solution Idea Experiment
Result Research Paper Experiment Implementation Research Problem

例えば… 性能が高い/計算効率の良いニューラルアーキテクチャの提案なぜ大規模ニューラルネットが汎化するのかの原因の究明ニューラル+勾配法でない新しい原理に基づくアルゴリズムの提案新しいベンチマークタスク・データセットの提案 AI alignment や AI の安全性についての研究
などなど…！つまり機械学習研究者と同じ(あるいはそれ以上の)ことができるAI

[Vaswani+ 2017] [Devlin+ 2018] [Kingma & Ba 2014]

http://www.offconvex.org/2021/03/25/beyondNTK/ [Hochreiter & Schmidhuber 1997] [Nakkiran+ 2019]

機械学習研究が自律的にできるAI

特定のタスクの自動化 e.g. 論文検索/実験条件探索特定の科学課題を解くことに特化したAI 人間がやるべき研究を定めてそれらを自動実行人間の研究の支援　ではなく… AI自身が自ら考え研究者として研究をする　→科学の道具としてのAIではなく研究者としてのAI 単的に言えば、これら2つの違いは自律性(=どこにどれだけ人間が関与/介入するか)の程度の違い

高橋恒一(2024) “科学AIの自律性レベル“

つまり、ここでいう「機械学習研究が自律的にできるAI」は、　人間の研究者レベルの高い自律性を持って、機械学習に関する　新しい知識を自律的に生産する AI のこと

【おまけ】自律実行が大変社会への影響が甚大他分野の研究自動化にも寄与研究成果で自己改善課題を研究課題にコンピュータ内で完結 AI
安全性の技術的解決にも寄与なぜAI研究かというとそれは自己改善に繋がり理想的にはAIの指数的な性能向上をもたらしうるという意味で重要すぎるから

どのような取り組みがあるのか & 現在どこまでできているのか＆どのような課題があるのか①

結論(と個人的所感)からいうと… 人工機械学習研究者実現に必要な、個別タスクの自動化の研究は、これまでたくさん行われてきた (特に Sakana AI の the AI Scientist
登場以前)人工機械学習研究者の作成を目指す研究は多くなかったが、最近増加している現在公開されている範囲では、色々下駄を履かせて「アルゴリズムの実装はできるが、それがなぜうまくいくのかの理論的理解には課題がある初級の機械学習研究者」程度の論文を自動執筆するくらいのレベルで、かつまだ真に人工研究者と呼べるものはないただ、各社やってないわけがないので実際の最先端はもっと進んでいると想定するのが妥当だし、分野の進展を考えると1~2年で相当程度のものができるのでは？ Lu et al. (2024) The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

Objective Solution Implementation Experiment Plan Solution Idea Experiment Result Research
Paper Experiment Implementation Research Problem

Paper Experiment Implementation Research Problem 研究過程全体

[Lu+ 2024] https://sakana.ai/ai-scientist-jp/

[Lu+ 2024]

AI Scientist は機械学習の研究でオープンエンドなアイデアの生成から、実験の実施/論文の執筆/さらには査読までを一気通貫で自動実行した先ほど見せたくらいの人間らしい論文の自動生成まで持っていったという点で新規！「研究するAI」の共通イメージを作ったこと、「AI Scientist
作ろう」というメッセージを発信したことが重要！

[Ifargan+ 2024] Data to paper CycleResearcher [Weng+ 2024] AI Scientist
同様、論文執筆まで自動実行

[Lu+ 2024] MLR-Copilot アイデア生成から実験など研究過程を自律実行 AIGS [Liu+ 2024]

“アルゴリズムの実装はできるが、それがなぜうまくいくのかの理論的理解には課題がある初級の機械学習研究者” レベルの論文の自動生成 Lu et al. (2024) The AI Scientist:
Towards Fully Automated Open-Ended Scientific Discovery

Paper Experiment Implementation Research Problem アイデア生成/問いの生成/課題発見 (発見の文脈)

[Asai+ 2024] [Katz+ 2024] Knowledge Navigator OpenScholar 【おまけ】論文検索支援サービス/研究

[Torres+ 2024] [Newman+ 2024] ARXIVDIGESTABLES PROMETHEUS 【おまけ】サーベイ/システマティックレビューの効率化支援の研究

[Wang+ 2024] AutoSurvey サーベイ/システマティックレビューの自動生成！（論文の検索から論文の要約やグルーピング、論文の執筆に至るまで） [Hu+ 2024] HiReview 【おまけ】

Scideator: Human-LLM Scientific Idea Generation Grounded in Research-Paper Facet Recombination
[Radensky+ 2024] IdeaBench: Benchmarking Large Language Models for Research Idea Generation [Guo+ 2024] Two Heads Are Better Than One: A Multi-Agent System Has the Potential to Improve Scientific Idea Generation [Su+ 2024] Chain of Ideas: Revolutionizing Research Via Novel Idea Development with LLM Agents [Li+ 2024] SciPIP: An LLM-based Scientific Paper Idea Proposer [Wang+ 2024] Improving Scientific Hypothesis Generation with Knowledge Grounded Large Language Models [Xiong+ 2024] Nova: An Iterative Planning and Search Approach to Enhance Novelty and Diversity of LLM Generated Ideas [Hu+ 2024] IdeaSynth: Iterative Research Idea Development Through Evolving and Composing Idea Facets with Literature-Grounded Feedback [Pu+ 2024] ResearchAgent: Iterative Research Idea Generation over Scientific Literature with Large Language Models [Baek+ 2024] OpenResearcher: Unleashing AI for Accelerated Scientific Research [Zheng+ 2024] Generation and human-expert evaluation of interesting research ideas using knowledge graphs and large language models [Gu & Krenn 2024] SCIMON : Scientific Inspiration Machines Optimized for Novelty [Wang+ 2023] AutoML-GPT: Automatic Machine Learning with GPT [Zhang+ 2023] Large Language Models for Automated Open-domain Scientific Hypotheses Discovery [Yang+ 2023] SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning [Ghafarollahi & Buehler 2024] Creative research question generation for human-computer interaction research [Liu+ 2023] Mapping the challenges of hci: An application and evaluation of chatgpt and gpt-4 for cost-efficient question answering [Oppenlaender & Hamalainen 2023] Evaluating the use of large language model in identifying top research questions in gastroenterology [Lahat+ 2023] ... and more !! アイデア生成/課題発見研究は昔からあり今も新しい論文が続々出てる

[Baek+ 2024] Chain of Ideas [Li+ 2024] ResearchAgent 研究の流れの情報を陽に組み込んだアイデア生成やエージェントベースで反復的にアイデアを改善する枠組みなどが提案されている

Novelty Kumar+ (2024) Can Large Language Models Unlock Novel Scientific
Research Ideas? 現在の LLM でも人間に比肩する研究アイデアを生成可能であり、特に新規性の点では人間を超えるようなアイデアも生成可能一方凡庸なアイデアも生成するし実現可能性などの面では課題もあり Si+ (2024) Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers Guo+ (2024) IdeaBench: Benchmarking Large Language Models for Research Idea Generation

分野を変えるような革新的なアイデアの生成はまだ人は一つのアイデアを生成するために多くの試行錯誤をしたり、様々な情報源からふとした瞬間にアイデアを生成したりするが、そうしたアイデア生成はまだ ... など！

Paper Experiment Implementation Research Problem アイデアの実装と実験 (エンジニアリング)

https://www.pragmaticcoders.com/resources/ai-developer-tools https://x.com/primo_data/status/1668025638857617408 https://github.com/e2b-dev/awesome-ai-agents コーディング LLM/エージェントの発展が加速しており、ML 研究における実装の自動化はこれらの部分問題としての側面は大きい

探索空間手法提案/発見手法評価 *[Hu+ 2024] を参考

探索空間手法提案/発見手法評価 *[Hu+ 2024] を参考自動化の試みは昔からある AutoML をはじめとして ML
の技術要素の自動提案の研究は前からある

[White+ 2023] [Chen+ 2023] [Lu+ 2024] アーキテクチャ/オプティマイザ/損失関数などの機械学習の要素の自動発見/提案の取り組みは多く存在

探索空間手法提案/発見手法評価 *[Hu+ 2024] を参考 Open-Ended な試みが増えてきている！自動化の試みは昔からある LLM
の能力向上によりオープンエンドな探索空間での手法の自動構成/提案/発見の試みができるようになってきた！

[Hunag+ 2023] [Zhang+ 2023] MLAgentBench AutoML-GPT ML エンジニアリング/AutoML パイプライン/ML 開発の自動化
BudgetMLAgent [Gandhi+ 2024]

[Viswanathan+ 2023] Prompt2Model [Yang+ 2024] AutoMMLab 言語による指示でデータの選択・ベースのモデルの選択・デプロイ可能なレベルのモデルの訓練まで自動実行

[Hu+ 2024] 最近ではエージェントシステムの自動生成や単一エージェントからマルチエージェントを生成する研究なども ADAS EvoAgent[Yuan+ 2024]

AIエージェントのAI開発タスク遂行能力をAI エージェントによって自動評価も！【おまけ】 [Zhuge 2024] Agent-as-a-Judge

[Hong+ 2024] [Ifargan+ 2024] データ科学の自動化の試みは数多くあり、複雑なパイプライン構築も含め自動化され始めている DS-Agent: Automated Data Science by
Empowering Large Language Models with Case-Based Reasoning [Guo+ 2024] JarviX: A LLM No code Platform for Tabular Data Analysis and Optimization [Liu+ 2023] Autonomous LLM-driven research from data to human-verifiable research papers [Ifargan+ 2024] Data Interpreter: An LLM Agent For Data Science [Hong+ 2024] Towards Automated Data Sciences with Natural Language and SageCopilot: Practices and Lessons Learned [Liao+ 2024] Towards Fully Autonomous Research Powered by LLMs: Case Study on Simulations [Liu+ 2024] BLADE: Benchmarking Language Model Agents for Data-Driven Science [Gu+ 2024] An Empirical Study on Self-correcting Large Language Models for Data Science Code Generation [Quoc+ 2024] DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models [Huang+ 2024] AutoKaggle: A Multi-Agent Framework for Autonomous Data Science Competitions [Li+ 2024] ...

[Li+ 2024] AutoKaggle LLM でKaggle タスクを自動遂行するフレームワークの提案

[Shern+ 2024] MLE-Bench 一部の研究タスクやKaggleタスクを解けるが、既存の手法で解けない課題やバグ修正、試行錯誤などには弱く、ハルシネーションや計画策定の失敗などもみられる AI 研究者がやっているようなレベルの研究タスクの自動実行にはまだ到達していない MLAgentBench [Huang+ 2023]
[Kenney 2024] ML Research Benchmark

??? Complicated/Concrete Idea Simple/Abstract Idea Brain-inspired AI AI model Inspired
by visual information processing ... ??? Papers Mathematical Model ??? Code Implementation [Fukushima 1980] 単純なアイデアからオープンエンドに複雑な手法を発展するのはまだ

https://www.autores.one/

AutoRes 資料 by Wataru Kumagai より抜粋

論文取得目的論文1 手法分解手法1A 手法1B 手法作成論文2 手法分解手法2A
手法2B ...

*図はイメージ https://leandojo.org/ 研究過程の構造化定理証明/理論研究の自動化 AutoRes 資料 by Toma Tanakaより抜粋

探索空間手法提案/発見手法評価 *[Hu+ 2024] を参考 Open-Ended な試みが増えてきている！自動化の試みは昔からある機械学習「研究」の自動化には評価方法の構築も含めた自動化が必要！！

科学発見過程発見の文脈正当化の文脈

科学発見過程発見の文脈正当化の文脈これまでの話（多くの AI for Science の研究）は発見の文脈の話！

科学発見過程発見の文脈正当化の文脈正当化の文脈の自動化の試みは少ない！

前述した全過程の研究自動化の試みや、ML開発の自動化の試みは実験の自動化の試みを内包している

論文/コードベースから研究の部分的な再現実装(実行)の自動化とそのためのベンチマーク [Siegel+ 2024] CORE-Bench SUPER [Bogin+ 2024] [Tang+ 2023] ML-Bench
CodeRefine [Bogin+ 2024]

[Butt 2024] BenchAgents (簡易的な)ベンチマーク/評価タスクの自動生成の試み！ Automated Capability Discovery [Lu+ 2024]

学習器の学習学習器の実行学習器の評価データ学習器評価ただ、研究の上流の過程(アイデアやその実装)の変動に適応して、 ↑のデータの取得や評価方法の設計、ベースラインの準備なども含めた全ての要素を含めて、作り込まれたテンプレート無しで適切な実験を計画＆実行するのはまだ全然できてない

Feedback Propose Method Design Experiment Run Experiment Propose Method Design
Experiment Run Experiment Feedback また、実験結果の帰属先を柔軟に決定して修正するようなこともできてない

Paper Experiment Implementation Research Problem 査読/研究評価

Artificial Intelligence Technologies to Support Research Assessment: A Review [Kousha+
2022] Automated Scholarly Paper Review: Possibility and Challenges [Lin+ 2022] Can Large Language Models Provide Useful Feedback on Research Papers? A Large-Scale Empirical Analysis [Liang+ 2023] Reviewergpt? an Exploratory Study on Using Large Language Models for Paper Reviewing [Liu+ 2023] Aries: A Corpus of Scientific Paper Edits Made in Response to Peer Reviews [D’Arcy+ 2023] Gpt4 is Slightly Helpful for Peer-Review Assistance: A Pilot Study [Robertson 2023] AgentReview: Exploring Peer Review Dynamics with LLM Agents [Jin+ 2024] Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [Tan+ 2024] RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [Couto+ 2024] MARG: Multi-Agent Review Generation for Scientific Papers [D'Arcy+ 2024] Generative Adversarial Reviews: When LLMs Become the Critic [Bougie+ 2024] The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates [Latona+ 2024] Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers: NeurIPS’24 Experiment [Goldberg+ 2024] What Can Natural Language Processing Do for Peer Review? [Kuznetsov+ 2024] ReviewFlow: Intelligent Scaffolding to Support Academic Peer Reviewing [Sun+ 2024] Prompting LLMs to Compose Meta-Review Drafts from Peer-Review Narratives of Scholarly Manuscripts [Santu+ 2024] OpenReviewer: A Specialized Large Language Model for Generating Critical Scientific Paper Reviews [Idahl+ 2024] LLMs Assist NLP Researchers: Critique Paper (Meta-)Reviewing [Du+ 2024] Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [Ye+ 2024] Is LLM a Reliable Reviewer? A Comprehensive Evaluation of LLM on Automatic Paper Reviewing Tasks [Zhou+ 2024] ... and more! 査読(研究評価)の自動化とその評価の研究もたくさん

[Liang＋ 2023] [Weng＋ 2024] CycleReviewer LLM は概ね有用なフィードバックを与えるだけでなく、訓練によって人間よりも(MAEの意味で)良く査読スコアを予測できるという報告も

[Du＋ 2024] [Zhou＋ 2024] 一方でLLMは浅い査読や事実誤認の検出、健全性の評価に課題がある他、人間より過度に高いスコアをつける傾向や、長い文章に高いスコアをつける傾向など様々なバイアスを抱えている [Ye＋ 2024] [Zhou+ 2024]
[Latona+ 2024]

また、現在のLLMの査読結果はプロンプトインジェクションなどによって操作することが可能であり、これは科学知識の信頼性に深刻な影響を与える可能性もある [Ye+ 2024]

課題はたくさん！ LLMの基礎能力に関する課題、コーディングLLM特有の課題、エージェント特有の課題、など研究に限らない課題が研究AIの課題にもなっており、この課題の改善が研究AIを大きく発展させる部分が大きい自律性長区間でオープンエンドな状況での適応的な意思決定の繰り返しコンピュータの完璧な操作数学的能力/演繹的推論/系統的推論 ... などなど！

既存ベンチマークは単純なタスクに制限/自由度も制限人のような研究の自律遂行能力を評価するベンチマークが必要研究遂行能力の評価 RQ、仮説、検証手順などの研究の中間生産物の質の評価例：仮説の新規性の評価、RQ の重要性の評価、etc. 自律性の評価どの過程でどの程度どんな人間の介入が必要か評価社会的望ましさの評価安全性、倫理、社会的影響などの評価
一方で、そもそも何が良い研究なのかは人間でも明確に理解してない [Huang+ 2023] [Zenil+ 2023] 人工研究者のベンチマーク設計の重要性例えば研究の「新規性」をどう測るかはそれを多くの人が研究してる Science of Science の分野でもまだ議論が続いているという状況らしい三浦 (2024) “研究の新規性をどう測るか”　参照)

研究とは？ (どのような課題があるのか②)

より自律性の高い手法は出てきたが、まだ大部分は人間が事前に定めたワークフローを自動実行している現状は機械学習研究者が典型的に実行するタスク/ワークフローを自動化しているという形だし、現実的にしばらくはこの路線でいく人間が実際にやっている研究はもっと複雑で試行錯誤的だが、現在自動化されているワークフローは理想化されたものこれは人工研究者と呼べるだろうか？

[Yanai & Lercher 2019]

# チャールズ・ダーウィンの進化論発展の詳細年表 ## 1809年 - 2月12日：チャールズ・ダーウィン、イングランドのシュルーズベリーで誕生 ## 1825-1827年 - エディンバラ大学で医学を学ぶが中退
- 自然科学への興味を深める ## 1828-1831年 - ケンブリッジ大学クライスツ・カレッジに入学 - 植物学者ジョン・ヘンズローの指導を受け、生物学への関心が高まる ## 1831-1836年：ビーグル号航海 - 博物学者として世界周航に参加 - 重要な観察： 1. 南アメリカで絶滅した巨大哺乳類の化石を発見、現存種との類似性に注目 2. ガラパゴス諸島のフィンチの嘴の形状が島ごとに異なることを発見 3. ガラパゴスゾウガメの甲羅の形状の島ごとの違いを観察 - これらの観察が、種の可変性の考えの基礎となる ## 1837年 - 7月：最初の進化ノート（「赤いノート」）の執筆を開始 - 種の変化に関する初期の考えを記録 ## 1838年 - 9月：トマス・マルサスの「人口論」を読み、自然選択の概念を着想 - 生存競争の概念を発展させる ## 1842年 - 進化論の最初の概要を35ページの草稿にまとめる - 「自然選択」という用語を初めて使用 - 変異、遺伝、過剰生産、生存競争の概念を統合 ## 1844年 - より詳細な230ページの進化論草稿を執筆 - 自然選択による進化の過程をより詳細に説明 - 妻エマに草稿を託し、死後の公表を指示 ## 1846-1854年 - 主に蔓脚類（フジツボの仲間）の研究に従事 - 種の変異の範囲と遺伝の仕組みについての理解を深める ## 1854年 - 自然選択による進化の研究を本格的に再開 - 家畜育種の事例を収集し、人為選択と自然選択の類似性を探究 ## 1858年6月 - アルフレッド・ラッセル・ウォレスから類似の進化理論に関する論文を受け取る - 7月1日：リンネ協会でウォレスの論文とダーウィン自身の要約を共同発表 ## 1859年 - 11月24日：「種の起源」出版 https://www.kousakusha.co.jp/BOOK/ISBN978-4-87502-417-0.html

そもそも研究/科学とはなんでしょう？【個人的見解】研究とはある社会にとっての新しい知識を生産する営み？すでに誰かがやってることをやっても研究とは呼ばれなそう研究はこの世界の知らないことを明らかにしている営みという印象人間社会とか
[Takagi 2023]

そもそも研究/科学とはなんでしょう？【作業的定義】研究とはある社会にとっての新しい知識を生産する営み？すでに誰かがやってることをやっても研究とは呼ばれなそう研究はこの世界の知らないことを明らかにしている営みという印象人間社会とか
[Takagi 2023] →科学哲学者間でも合意がない (むしろ統一的定義は無いという共通見解) この世界の理解？創造性？発見？論文書くこと？系統的な手続き？科学的方法に則るもの？

何を持って研究とするか、何を持って科学とするかは合意が無いし、おそらく今後も統一的な定義がなされることはないそれでは、AI Scientist / 人工研究者を作るためには一体何を作ればいいのだろうか？ ↑答えはない議論だけど何か決める必要がある →各人が「科学」という言葉に何を求めているのか明確にし何を作るべきかを議論していくことが必要

これまで議論した「科学」はある論文執筆の過程に閉じてたり抽象的な機能の記述中心だったが実際の科学は社会に埋め込まれてる

[Taniguchi+ 2024] 科学はマルチエージェントによるコミュニケーションを通じた営み →AIがどこまで「人間のための科学」を自律実行できるのか？？

[丸山隆一「AI科学の何が“哲学”の問題になるのか] [Nielsen & Qiu “A Vision of Metascience”] 科学は動的であり、ずっと変わらないものではない私たちの科学の「ルール」の幾つかは歴史の副産物で最近できたもの
→今の科学の自動化に留まらずAIによる自動化を前提とした新しい　科学の設計の議論も重要

最後に

AI 研究の自動化はここ1-2年がアツいと思ってます！みんなでAI研究の自動化やってきましょう！

研究をするAIへ向けて

研究をするAIへ向けて

More Decks by Shiro Takagi

Featured

Transcript