Generation [2] [2311.05232] A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions [3] [2311.14648] Calibrated Language Models Must Hallucinate 定義:“NLG models generating unfaithful or nonsensical text” [1] ハルシネーションの要因(データ由来) [2] • Flawed Data Source (不完全なデータソース) • Inferior Data Utilization (不完全なデータ利用) 事前学習データに十分な知識があったとしてもハルシネーションは起こる [3] 言語モデルの「知識」に期待しない
で高い性能 • Function Calling, json-modeなど出力フォーマット機能の充実 LLMにデータを構造化させよう! → 合成データ (Synthetic data) [1,2] [1] Exploiting Asymmetry for Synthetic Training Data Generation: SynthIE and the Case of Information Extraction - ACL Anthology [2] Synthesize, if you do not have: Effective Synthetic Dataset Creation Strategies for Self-Supervised Opinion Summarization in E-commerce - ACL Anthology