Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
ON-LSTM
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Zhang Yixiao
July 05, 2019
Research
200
0
Share
ON-LSTM
Zhang Yixiao
July 05, 2019
More Decks by Zhang Yixiao
See All by Zhang Yixiao
CoCon
ldzhangyx
0
380
vq-cpc
ldzhangyx
0
380
MixPoet
ldzhangyx
4
440
diora
ldzhangyx
0
290
drummernet
ldzhangyx
0
240
Other Decks in Research
See All in Research
都市交通マスタープランとその後への期待@熊本商工会議所・熊本経済同友会
trafficbrain
0
210
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
160
Ankylosing Spondylitis
ankh2054
0
170
コーディングエージェントとABNを再考
hf149
2
690
非試合日の野球場を楽しむためのARホームランボールキャッチ体験システムの開発 / EC79-miyazaki
yumulab
0
180
重要だけど測れていないもの:高齢者ケアの見えない課題
theoriatec2024
0
310
LLM の Attention 機構まとめ — 数式・計算量・メモリ
puwaer
7
2k
第66回コンピュータビジョン勉強会@関東 Epona: Autoregressive Diffusion World Model for Autonomous Driving
kentosasaki
0
620
第12回人と環境にやさしい交通をめざす全国大会/熊本都市圏「車1割削減、渋滞半減、公共交通2倍」をめざして
trafficbrain
0
100
姫路市 -都市OSの「再実装」-
hopin
0
1.7k
羽田新ルート運用6年の検証
1manken
0
160
YOLO26_ Key Architectural Enhancements and Performance Benchmarking for Real-Time Object Detection
satai
3
760
Featured
See All Featured
Discover your Explorer Soul
emna__ayadi
2
1.1k
Future Trends and Review - Lecture 12 - Web Technologies (1019888BNR)
signer
PRO
0
3.6k
Agile that works and the tools we love
rasmusluckow
331
21k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
180
Reflections from 52 weeks, 52 projects
jeffersonlam
356
21k
Lightning Talk: Beautiful Slides for Beginners
inesmontani
PRO
2
560
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
231
23k
End of SEO as We Know It (SMX Advanced Version)
ipullrank
3
4.2k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
820
Google's AI Overviews - The New Search
badams
0
1k
Bridging the Design Gap: How Collaborative Modelling removes blockers to flow between stakeholders and teams @FastFlow conf
baasie
0
570
Transcript
ORDERED NEURONS: INTEGRATING TREE STRUCTURES INTO RECURRENT NEURAL NETWORKS (ICLR
2019, BEST PAPER AWARD
在语言模型中引入树结构 • 能获得抽象化级别不断提升的分层表征; • 能捕获复杂语言现象,如长期依赖问题与组分效应; • 能为梯度反向传播提供捷径。
ON-LSTM • 用有序神经元表达层次结构 • Contribution • 1.提高了语言模型的效果 • 2.可以无监督地学习到句子的句法结构
LSTM
语言和序信息 • 在常见的神经网络中,神经元通常都是无序的 • ON-LSTM则试图把这些神经元排个序,并且用这个序来表示一些特定的结构,从 而把神经元的序信息利用起来
层级结构 • 层级越低代表语言中颗粒度越小的结构,而层级越高则代表颗粒度越粗的结构 • 自然语言:字——词——短语 • 层级越高,颗粒度越粗,那么它在句子中的跨度就越大
ON-LSTM的设计方向 • 层级越高,颗粒度越粗,那么它在句子中的跨度就越大 • 要求: • 1. 能区分高低层级的信息 • 2.
能让高层级的信息保留更久,底层级的信息更容易被遗忘
设计:分区间更新 • 假设ON-LSTM中的神经元都排好序后,向量Ct的index越小的元素,表示越低层级 的信息,而index越大的元素,则表示越高层级的信息 • 步骤: • 1. 初始化一个全零的Ct •
2. 预测历史信息ht-1 和当前输入的层级xt 的层级df, di
层次更新的两种可能 • 1. df ≤ di , 这意味着当前输入xt 的层级要高于历史记录ht−1 的层级,那就是说,两者
之间的信息流有交汇,当前输入信息要整合到高于等于df 的层级中
层次更新的两种可能 • 2. df > di , 这意味着历史记录和当前输入互不相交。
分层更新的作用 • 高层信息就可能保留相当长的距离(因为高层直接复制历史信息,导致历史信息可 能不断被复制而不改变); • 而低层信息在每一步输入时都可能被更新(因为低层直接复制输入,而输入是不断 改变的)。 • 所以就通过信息分级来嵌入了层级结构。 •
更通俗地说就是分组更新,更高的组信息传得更远(跨度更大),更低的组跨度更 小,这些不同的跨度就形成了输入序列的层级结构。
函数软化 • F1 和F2 ,输出层级整数,但这样的模型通常是不可导的 • 替代:使用softmax,替换成一个分类模型。df => 1df (one
hot向量) • 分层更新的实际操作:
无监督语法 • 从softmax向量反过来转换为层级:
贪心算法析出层次结构 • 给定输入序列{xt }到预训练好的ON-LSTM,输出对应的层级序列{df,t }, • 然后找出层级序列中最大值所在的下标,比如k, • 那么就将输入序列分区为[xt<k ,[xk
,xt>k ]]。 • 然后对子序列xt <k和xt >k重复上述步骤,直到每个子序列长度为1。
None