Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
BHyVe Internals
Search
Takuya ASADA
May 26, 2012
Technology
0
100
BHyVe Internals
Takuya ASADA
May 26, 2012
Tweet
Share
More Decks by Takuya ASADA
See All by Takuya ASADA
Interrupt Affinityについて
syuu1228
0
280
僕のIntel NUCが起動しないわけがない
syuu1228
3
4.4k
Introduction to bhyve
syuu1228
1
400
OSv on bhyve
syuu1228
3
410
ruby-virtualmachine
syuu1228
0
260
BHyVeでOSvを起動したい 〜BIOSがなくてもこの先生きのこるには〜
syuu1228
2
850
10GbE時代のネットワークI/O高速化
syuu1228
14
8.7k
Play with UEFI
syuu1228
1
340
仮想化環境での利用者公平性
syuu1228
0
170
Other Decks in Technology
See All in Technology
マイクロモビリティシェアサービスを支える プラットフォームアーキテクチャ
grimoh
1
200
人と組織に偏重したEMへのアンチテーゼ──なぜ、EMに設計力が必要なのか/An antithesis to the overemphasis of people and organizations in EM
dskst
5
600
GitHub Copilot coding agent を推したい / AIDD Nagoya #1
tnir
2
4.5k
Android Studio の 新しいAI機能を試してみよう / Try out the new AI features in Android Studio
yanzm
0
260
開発と脆弱性と脆弱性診断についての話
su3158
1
1.1k
GCASアップデート(202506-202508)
techniczna
0
250
「守る」から「進化させる」セキュリティへ ~AWS re:Inforce 2025参加報告~ / AWS re:Inforce 2025 Participation Report
yuj1osm
1
110
mruby(PicoRuby)で ファミコン音楽を奏でる
kishima
1
210
帳票Vibe Coding
terurou
0
140
Browser
recruitengineers
PRO
3
230
夢の印税生活 / Life on Royalties
tmtms
0
280
知られざるprops命名の慣習 アクション編
uhyo
10
2.4k
Featured
See All Featured
Music & Morning Musume
bryan
46
6.7k
Bash Introduction
62gerente
614
210k
How to Ace a Technical Interview
jacobian
279
23k
It's Worth the Effort
3n
187
28k
Building a Scalable Design System with Sketch
lauravandoore
462
33k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
Build your cross-platform service in a week with App Engine
jlugia
231
18k
Embracing the Ebb and Flow
colly
87
4.8k
Designing Experiences People Love
moore
142
24k
Gamification - CAS2011
davidbonilla
81
5.4k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
The Cost Of JavaScript in 2023
addyosmani
53
8.8k
Transcript
1 BHyVe internals @syuu1228
2 1, BHyVe 概要
3 BHyVe とは • FreeBSD 版の Linux KVM のようなもの •
Intel VT を用いたハイパーバイザ • 開発の初期段階でごく限定的な機能が実装されている ↓ 最低限のハイパーバイザ実装のよいサンプルになりそう
4 新しい Web サイトと GSoC web site http://www.bhyve.org/ GSoC 2012:
BHyVe BIOS emulation to boot legacy systems http://bit.ly/bhyve_bios
5 実装状況 • Intel VT-x, EPT 必須 (= Nehalem 以降必須
) • BIOS 非対応 (disk ブート出来ない ) • 対応デバイス : – virtio-net, virtio-blk – pci passthrough(VT-d) – paravirtual console/debug port – UART • 対応 OS: – FreeBSD 8, 9, 10
6 /usr/sbin/bhyve vmm.ko BSD kernel IOCTL(VM_RUN) Guest kernel User program
VMLAUNCH VMExit 動作イメージ
7 使い方 • /boot/loader.conf hw.physmem="0x100000000" (ホストのメモリ割り当てを減らしてゲスト用の領域を 用意) • kldload vmm.ko
/usr/sbin/bhyveload -m ${lowmem} -M {highmem} -h {bootdir} $ {vmname} /usr/sbin/bhyve -c ${cpus} -m ${lowmem} -M{highmem} \ -s 1,virtio-net,tap0 -s 2,virtio-blk,${diskdev}
8 各コマンドの役割分担 • /usr/sbin/bhyveload VM インスタンスを作成し、 BSD カーネルを VM インスタンスのメモ
リ領域にロードして起動可能な状態を作る • /usr/sbin/bhyve bhyveload が初期化した VM インスタンスを実行し、ディス ク、 NIC 、コンソールなどのデバイスエミュレーション処理を行う VM インスタンスの状態は、プロセス内ではなく /dev/vmm/${vmname} というデバイス上、つまりカーネル内に保持される。 このファイルへ read(), write(), mmap() する事により VM 内のメモリ空 間にアクセス出来る。
9 bhyveload の動作 • sysctl(“hw.vmm.create”, vm_name) → /dev/vmm/${vm_name} を作成 •
open(/dev/vmm/${vm_name}) • seg.gpa = 0 seg.len = mem_size ioctl(fd, VM_MAP_MEMORY, seg) membase = mmap(NULL, mem_size, PROT_READ| PROT_WRITE, MAP_SHARED, fd, 0) • userboot.so を使って membase の領域へ BSD カーネルを memcpy()
10 userboot.so • FreeBSD のブートローダをユーザ空間で動くように移植 したもの • メモリやレジスタへの読み書きを wrap 、ゲストのメモリ
空間/レジスタへアクセス (メモリ空間は mmap 、レジスタの読み書きは ioctl 経由 で VMM が管理するゲストのデスクリプタへ) • これを利用して kload が実装されている ( Linux における kexec と同じ)
11 bhyve の動作 • open(/dev/vmm/${vm_name}) • デバイス初期化 • pthread_create(fbsdrun_start_thread) fbsdrun_start_thread()
{ while(1) { ioctl(VM_RUN, &vmexit) handler[vmexit.exitcode](&vmexit, &vcpu); } } • メイン関数はデバイスエミュレーションの処理要求イベントを kevent() で待つ
12 デモ http://www.youtube.com/watch?v=N2TbKzE_puA
13 2, CPU の初期化と OS のロード
14 vCPU の初期化 • bhyveload で以下の初期化を実施 – CR0 = PE
| PG | NE # ページング、プロテクトモード – CR4 = PAE | VMXE # PAE 、 VMX 有効 – EFER = LME | LMA # long mode 有効 – GDT 初期化&セグメントレジスタ初期化 – タスクレジスタ初期化 – ページテーブル& CR3 初期化 – RSP 初期化 – エントリポイント設定
15 mptable の初期化 • /usr/sbin/bhyve から実行(引数の CPU 数を使用) • (未実装な
ACPI を使わずに)セカンダリ CPU の情報を OS に伝える • BIOS ROM 領域上にテーブルを用意 • PCI デバイスや割り込みの情報の伝達にも使ってる?
16 bhyveload の役割 • ホストのユーザ空間でブートローダを起動して、カーネ ルをロードする為のレジスタ/セグメント/ページテー ブルの初期化を行う • ゲストはいきなり 64bit
モードでカーネルを実行
17 3, IO デバイス エミュレーション
18 ゲストカーネルのコンフィグレーション device pci device bvmconsole device bvmdebug device mptable
ACPI や多くのデバイスは無効 virtio.ko, if_vtnet.ko, virtio_pci.ko, virtio_blk.ko はモジュール としてビルド
19 /usr/sbin/bhyve vmm.ko BSD kernel IOCTL return Guest kernel VMExit
IO エミュレーション IO 命令 console PCI net blk io emulation 実行
20 IO エミュレーション • ゲスト OS が in/out 命令を実行、 VMExit
• vmm.ko で EXIT_REASON_INOUT をハンドル • VM_EXITCODE_INOUT で ioctl を return 、カーネルか ら /usr/sbin/bhyve へ制御を移す • handler[VM_EXITCODE_INOUT]() ↓ inout_handlers[port].handler() の順にハンドラがコールされ、 IO ポートに割り当てられ たハンドラが実行される
21 bvm_console • IO 空間の 0x220 に inl / outl
で読み書き • ゲストドライバ – int getc(void) { return inl(0x220); } – void putc(int c) { outl(0x220, c); } – 割り込みなどない。 • VMM – if (in) { read(fd, &c, 1); *eax = (c & 0xff); }else write(fd, *eax, 1);
22 PCI バス • CONFIG_ADDRESS レジスタ: 0xcf8 • CONFIG_DATA レジスタ:
0xcfc – 0xcff • 各仮想 PCI デバイスは初期化時に自分のコンフィグレジ スタの値を設定 • 各仮想 PCI デバイスの IO レジスタはデバイス初期化時に 動的に確保
23 PCI デバイスの MSI 割り込みサポート • PCI 割り込みとして MSI 割り込みのみサポート
• デバイス初期化時に configuration space 上の MSI capable フラグ を有効化 • /usr/sbin/bhyve からの割り込み要求は、 VM_LAPIC_IRQ ioctl と して vmm.ko へ送られる 引数として cpuid と vector ナンバを指定 • vmm.ko で ioctl を受けて vlapic にレジスタ値をセット • vmlaunch 前に vlapic の値をチェックして、割り込みがあったら VMCS にフラグをセット
24 MSR register のエミュレーション • Local APIC をエミュレートする為に、 wrmsr/rdmsr 命令で
VMExit を発生させ、エミュレーションを行なっている • ほぼ vmm.ko でエミュレーションを行なっているが、初期 化周りの一部の処理で /usr/sbin/bhyve へエミュレーション を行わせている
25 タイマー • Local APIC Timer vmlaunch 前にタイマーの値を計算、 vlapic へ割り込みを設定
vmm.ko 内でエミュレーション • TSC rdtsc を trap していないように見える (その場合どうなるんだろう??) • PIT 8254 /usr/sbin/bhybe で IO ポートアクセスのエミュレーションをして いる 割り込むコードが見当たらないような…??
26 virtio-net, blk • PCI デバイス、 IO エミュレーションと MSI 割り込みを使
用 • /usr/sbin/bhyve でエミュレーション • MMIO は使っていない (そもそも MMIO に対応していないっぽい…)
27 pci passthrough(VT-d) • デフォルトでは使わない • Intel VT-d を使って PCI
デバイスをゲストに割り当てる機 能 • 物理デバイス→ゲストへの割り込み転送は vmm.ko 内で行 なっているが、 io は一度 /usr/sbin/bhyve へ戻しているよう に見える • MMIO 空間は EPT 経由でゲストにマップしている模様
28 UART • ( bvm_console がダサいので)最近実装されました • てっきり PC の
COM ポートをエミュレーション出来るよ うにしたのかと思ったら、なんと PCI デバイス…。 • Siig CyberSerial 1-port と自己申告 • IOAPIC 未実装だから割り込みも未実装\ (^o^) /
29 まとめ • たったこれだけのデバイスエミュレーションで、 (ちょっと苦しいけど)ゲスト OS が動く事が分かる – 但し、準仮想化デバイスを幾つか使っているのでゲスト側ドラ イバが必須
• 現状では FreeBSD しか動かないが、 FreeBSD カーネルに 依存している訳ではない事がわかる – bhyveload を fork して自分の起動したい OS に対応したものを書 けば、動きそう
30 おまけ • BHyVe Hackathon 参加者募集中 • http://bit.ly/bhyve_hackathon 詳しくは @syuu1228
まで