Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ON-LSTM
Search
Zhang Yixiao
July 05, 2019
Research
0
160
ON-LSTM
Zhang Yixiao
July 05, 2019
Tweet
Share
More Decks by Zhang Yixiao
See All by Zhang Yixiao
CoCon
ldzhangyx
0
340
vq-cpc
ldzhangyx
0
340
MixPoet
ldzhangyx
4
380
diora
ldzhangyx
0
250
drummernet
ldzhangyx
0
200
Other Decks in Research
See All in Research
ノンパラメトリック分布表現を用いた位置尤度場周辺化によるRTK-GNSSの整数アンビギュイティ推定
aoki_nosse
0
220
Data-centric AI勉強会 「ロボットにおけるData-centric AI」
haraduka
0
510
Introduction of NII S. Koyama's Lab (AY2025)
skoyamalab
0
160
Satellite Sunroof: High-res Digital Surface Models and Roof Segmentation for Global Solar Mapping
satai
3
190
DeepSeek-R1の論文から読み解く背景技術
personabb
3
490
TRIPOD+AI Expandedチェックリスト 有志翻訳による日本語版 version.1.1
shuntaros
0
100
20250226 NLP colloquium: "SoftMatcha: 10億単語規模コーパス検索のための柔らかくも高速なパターンマッチャー"
de9uch1
0
250
セミコン地域における総合交通戦略
trafficbrain
0
130
Weekly AI Agents News! 11月号 論文のアーカイブ
masatoto
0
320
作業記憶の発達的特性が言語獲得の臨界期を形成する(NLP2025)
chemical_tree
1
370
Batch Processing Algorithm for Elliptic Curve Operations and Its AVX-512 Implementation
herumi
0
130
PostgreSQLにおける分散トレーシングの現在 - 第50回PostgreSQLアンカンファレンス
seinoyu
0
290
Featured
See All Featured
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
118
51k
The Cult of Friendly URLs
andyhume
78
6.3k
Unsuck your backbone
ammeep
670
57k
The Cost Of JavaScript in 2023
addyosmani
48
7.6k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
22
2.6k
How to Think Like a Performance Engineer
csswizardry
22
1.5k
Designing Dashboards & Data Visualisations in Web Apps
destraynor
231
53k
Bash Introduction
62gerente
611
210k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
34
2.9k
How GitHub (no longer) Works
holman
314
140k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
233
17k
Building Adaptive Systems
keathley
41
2.5k
Transcript
ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS (ICLR
2019, BEST PAPER AWARD
在语言模型中引入树结构 • 能获得抽象化级别不断提升的分层表征; • 能捕获复杂语言现象,如长期依赖问题与组分效应; • 能为梯度反向传播提供捷径。
ON-LSTM • 用有序神经元表达层次结构 • Contribution • 1.提高了语言模型的效果 • 2.可以无监督地学习到句子的句法结构
LSTM
语言和序信息 • 在常见的神经网络中,神经元通常都是无序的 • ON-LSTM则试图把这些神经元排个序,并且用这个序来表示一些特定的结构,从 而把神经元的序信息利用起来
层级结构 • 层级越低代表语言中颗粒度越小的结构,而层级越高则代表颗粒度越粗的结构 • 自然语言:字——词——短语 • 层级越高,颗粒度越粗,那么它在句子中的跨度就越大
ON-LSTM的设计方向 • 层级越高,颗粒度越粗,那么它在句子中的跨度就越大 • 要求: • 1. 能区分高低层级的信息 • 2.
能让高层级的信息保留更久,底层级的信息更容易被遗忘
设计:分区间更新 • 假设ON-LSTM中的神经元都排好序后,向量Ct的index越小的元素,表示越低层级 的信息,而index越大的元素,则表示越高层级的信息 • 步骤: • 1. 初始化一个全零的Ct •
2. 预测历史信息ht-1 和当前输入的层级xt 的层级df, di
层次更新的两种可能 • 1. df ≤ di , 这意味着当前输入xt 的层级要高于历史记录ht−1 的层级,那就是说,两者
之间的信息流有交汇,当前输入信息要整合到高于等于df 的层级中
层次更新的两种可能 • 2. df > di , 这意味着历史记录和当前输入互不相交。
分层更新的作用 • 高层信息就可能保留相当长的距离(因为高层直接复制历史信息,导致历史信息可 能不断被复制而不改变); • 而低层信息在每一步输入时都可能被更新(因为低层直接复制输入,而输入是不断 改变的)。 • 所以就通过信息分级来嵌入了层级结构。 •
更通俗地说就是分组更新,更高的组信息传得更远(跨度更大),更低的组跨度更 小,这些不同的跨度就形成了输入序列的层级结构。
函数软化 • F1 和F2 ,输出层级整数,但这样的模型通常是不可导的 • 替代:使用softmax,替换成一个分类模型。df => 1df (one
hot向量) • 分层更新的实际操作:
无监督语法 • 从softmax向量反过来转换为层级:
贪心算法析出层次结构 • 给定输入序列{xt }到预训练好的ON-LSTM,输出对应的层级序列{df,t }, • 然后找出层级序列中最大值所在的下标,比如k, • 那么就将输入序列分区为[xt<k ,[xk
,xt>k ]]。 • 然后对子序列xt <k和xt >k重复上述步骤,直到每个子序列长度为1。
None