組織的なインシデント対応を目指して〜成熟度評価と改善のステップ〜 / Towards an Organized Incident Response - Maturity Assessment and Improvement Steps -

גࣜձࣾTopotalʢͱΆͨΔʣ • h#ps:/ /topotal.com • SREΛओ࣠ʹϏδωεΛల։͢Δελ ʔτΞοϓ • 2ࣄۀΛӡӦ •
SRE as a Service • SaaS for SREʢWaroomʣ 3

SRE as a Service • SREʹಛԽٕͨ͠ज़ࢧԉαʔϏε • ࢧԉͷྫ • SLI/SLOͷಋೖɾӡ༻վળ
• CI/CDͷߏஙɾվળ • ΠϯγσϯτϚωδϝϯτͷվળ 4

WaroomʢϫϧʔϜʣ • h#ps:/ /waroom.com • ૊৫తʹΠϯγσϯτରԠΛߦ͏ͨΊ ͷSaaS • Slack AppϕʔεͰ࡞ΒΕ͓ͯΓɺීஈ
௨ΓରԠ͢Δ͚ͩͰࣗಈԽɾলྗԽ͕ Ͱ͖Δ 5

ΠϯγσϯτϨεϙϯεͷվળʹऔΓ૊Ή͜ͱ͕ଟ͍ • ۩ମతʹ͸ɺҎԼͷ2ͭͷۀ຿Λ௨ͯؔ͠ΘΓ͕͋Δ • SREaaS SRE: ސ٬ͷΠϯγσϯτϨεϙϯε؀ڥΛվળ͢Δ • Waroom PdM:
ΠϯγσϯτϨεϙϯεSaaSͷػೳΛߟ͑Δ • ͍ͣΕͷ৔߹΋ଐਓԽΛղফ͠ɺ૊৫తʹରԠͰ͖Δମ੍ͮ͘ Γ͕ٻΊΒΕΔ 7

ຊߨԋͷϞνϕʔγϣϯͱ֓ཁ • ૊৫తͳΠϯγσϯτରԠͷ࣮૷ʹؔ৺͕͋Δ • ΠϯγσϯτϨεϙϯεΛվળ͢Δࡍʹ໾ཱͭಓඪͷΑ͏ͳ΋ͷ Λͭ͘Γ͍ͨ • ͞·͟·ͳاۀͷվળ͕গ͠Ͱ΋ḿΔ͖͔͚ͬʹͳΕ͹خ͍͠ • →
੒ख़౓ϞσϧΛϕʔεʹاۀͷΠϯγσϯτϨεϙϯε؀ڥΛ ධՁ͠ɺஈ֊తʹվળ͢Δख๏Λ͓࿩͠·͢ 8

ΞδΣϯμ 1. ΠϯγσϯτϚωδϝϯτͷվળͷ೉఺ 2. ΠϯγσϯτରԠ੒ख़౓Ϟσϧͱվળͷεςοϓ 3. ϑΣʔζϚΠάϨʔγϣϯͷϙΠϯτ 9

ΠϯγσϯτϨεϙϯεͷվળ͕ Ή͔͍ͣ͠ 10

՝୊1: اۀ͝ͱʹղܾࡦ͕ҟͳΔͨΊɺෆ࣮֬ੑ͕ߴ ͍ • اۀ͝ͱʹ؀ڥ͕ΘΓͱେ͖͘ҟͳΔ • ex. πʔϧɺϑϩʔɺϙϦγʔ...... • ͞·͟·ͳاۀ΁SREࢧԉΛ͢ΔͨΊɺޮ཰Խ͍͕ͨ͠௫Έॴ͕ͳ͍
• ex. AࣾͰ͏·͍ͬͨ͘ϓϥΫςΟε͕ɺBࣾͰ͏·͍͘͘ͱ͸ݶΒͳ͍ • ݁Ռͱͯ͠ɺํ޲ײͳ͘౎౓ঢ়گΛ൑அ͠ͳ͕Βվળ͢Δ͜ͱʹ → اۀͷঢ়گͱղܾࡦͷύλʔϯ͕๲େͰ͋ΓɺΞυϗοΫͳରԠʹͳͬͯ͠·͏ 11

՝୊2: ϕετϓϥΫςΟεͷಋೖ͕͏·͍͔͘ͳ͍έʔε͕͋Δ • ސ٬ͷ՝୊ײ • ϫʔΫϑϩʔ͕ఆ·͍ͬͯͳ͍ͷͰɺ੔උΛͯ͠૊৫తʹରԠ͍ͨ͠ • վળࡦ • ϕετϓϥΫςΟεʹج͍ͮͨϫʔΫϑϩʔͷಋೖ
• ex. ίϚϯμʔϩʔϧͷಋೖɺSEVͷఆٛͳͲ • ݁Ռ • ϫʔΫϑϩʔ͕ཧղ͞Εͣɺఆண͢Δ·Ͱʹ૝ఆΑΓ΋ଟ͘ͷ͕͔͔࣌ؒͬͨ 12

ϕετϓϥΫςΟεͷྫ1 • ΠϯγσϯτίϚϯμʔ(IC)͸ ɺ্ڃ؅ ཧ৬ͷϝϯόʔͰ͋Δඞཁ͸ͳ͘ɺ໨త ͱํ޲ੑΛ࣋ͬͯΠϯγσϯτରԠΛਐ ΊΒΕΕ͹୭Ͱ΋Α͍ • ໾ׂ෼୲Λ͢Δ͜ͱͰɺ૊৫త͔ͭޮ཰ తʹରԠ͕Ͱ͖Δ
→ ͞·͟·ͳલఏ͕੔ͬͯ͸͡ΊͯޮՌ Λൃش͢ΔɻاۀʹΑͬͯ͸୯ͳΔΦʔό ʔϔουʹͳΔՄೳੑ΋͋Δ 1 Incident Management for Opera3ons 13

՝୊3: ʮ૊৫తͳରԠʯͷظ଴஋͕اۀʹΑͬͯҟͳΔ • ʮ૊৫తͳΠϯγσϯτରԠʯͱҰݴͰ͍ͬͯ΋ɺاۀ͝ͱʹ ཧ૝ঢ়ଶ͕ҟͳΔ • ΑΓ੒ख़ͨ͠૊৫Ͱ͸ɺ୯ʹෳ਺ਓ͕࿈ಈͯ͠ରԠ͢Δ͜ͱͰ ͸ͳ͘ɺਓ΍γεςϜ͕ΑΓޮ཰తʹ࿈ಈ͠ͳ͕ΒରԠͰ͖Δ ମ੍ΛٻΊΔ܏޲͕͋Δ •
→ ੒ख़ͨ͠૊৫Ͱ͋ͬͯ΋ཁٻʹݟ߹ͬͨվળΛ͍͖͍ͯͨ͠ 14

3ͭͷ೉఺ʹ޲͖߹͏ • ೉఺1: اۀͷঢ়گͱղܾࡦͷύλʔϯ͕๲େͰ͋ΓɺΞυϗο ΫͳରԠʹͳͬͯ͠·͏ • ೉఺2: पғΛר͖ࠐΉγʔϯͰɺվળ͕ࢥ͏Α͏ʹਐ·ͳ͍͜ ͱ͕͋Δ •
೉఺3: ʮ૊৫తͳରԠʯͷظ଴஋͕اۀʹΑͬͯҟͳΔ 15

3ͭͷ೉఺ʹ޲͖߹͏ • ೉఺1: اۀͷঢ়گͱղܾࡦͷύλʔϯ͕๲େͰ͋ΓɺΞυϗοΫͳରԠʹͳͬͯ͠·͏ • → ؇΍͔ʹ෼ྨ্ͨ͠Ͱɺத௕ظతͳվળͷํ޲ੑΛࣔͤΔΑ͏ʹͳΓ͍ͨ • ex. ʮࣗ෼ͨͪ͸ࠓʓʓͱ͍͏ঢ়گͳͷͰɺ□□ͷঢ়ଶΛ໨ࢦͯ͠ɺ△△΍✗✗ʹऔΓ૊Έ·͠ΐ͏ʂʯ
• ೉఺2: पғΛר͖ࠐΉγʔϯͰɺվળ͕ࢥ͏Α͏ʹਐ·ͳ͍͜ͱ͕͋Δ • → ૊৫Λר͖ࠐΈ΍͘͢͢ΔͨΊʹɺஈ֊తͳվળͷεςοϓΛͭ͘Γ͍ͨ • ೉఺3: ʮ૊৫తͳରԠʯͷظ଴஋͕اۀʹΑͬͯҟͳΔ • → ੒ख़ͨ͠اۀ͕໨ࢦ͢ཧ૝ঢ়ଶ΋ؚΊͯݴޠԽ͢Δ ্هͷ՝୊Λղܾ͢ΔͨΊʹɺ੒ख़౓ϞσϧͷߏஙΛ͢Δ͜ͱʹ 16

੒ख़౓Ϟσϧͷߏங 17

੒ख़౓Ϟσϧͱ͸2 ૊৫͕ϓϩηεΛఆΊચ࿅͢ΔͨΊͷख ஈɻҎԼΛఏڙ͢Δɻ • Կ͔Βணख͢΂͖͔ • ڞ௨ͷݴޠͱɺϏδϣϯͷڞ༗ • ࣮ߦͷ༏ઌॱҐ͚ͮͷ࿮૊Έ •
ࣗ෼ͨͪͷ૊৫ʹͱͬͯվળ͕ҙຯ͢ Δ͜ͱΛ໌֬ʹ͢Δํ๏ 2 ΢ΟΩϖσΟΞ: ೳྗ੒ख़౓Ϟσϧ౷߹ 18

SREͷίϯςΩετΛ੒ख़౓ϞσϧʹऔΓࠐΉ • ΠϯγσϯτϨεϙϯε͸ɺϞχλϦϯά΍σϓϩΠͳͲͷप ลྖҬͷӨڹΛड͚΍͍͢ • ૊৫ʹ͓͚ΔSREͷঢ়گΛ΋ͱʹஈ֊తʹఆ͍ٛͨ͠ • → ৴པੑͷϚΠϯυηοτͷਫ४Λ༻͍ͯ੒ख़౓ϨϕϧΛఆٛ ͢Δ
19

ิ଍: ৴པੑͷϚΠϯυηοτ 3 • ૊৫ͷ৴པੑΛ5ͭͷجຊతஈ֊ʹ෼͚ͨ΋ͷ • Absent: ૊৫ʹͱͬͯ৴པੑ͸ೋ࣍తͳߟྀࣄ߲ • Reac.ve:
৴པੑͷ໰୊ / ϦεΫ΁ͷରԠ͕࠷ۙͷαʔϏεఀࢭʹ݁ͼ෇͚ ΒΕɺࢄൃతͳϑΥϩʔ͕ߦΘΕΔɻγεςϜͷ໰୊ͷमਖ਼ʹ௕ظతͳ౤ ࢿ͕ߦΘΕΔ͜ͱ͸΄ͱΜͲͳ͍ɻ • Proac.ve: ఆظతͳ૊৫ϓϩηεΛ௨ͯ͡જࡏతͳ৴པੑϦεΫ͕ಛఆ͞ Εରॲ͞ΕΔ • Strategic: ͜ͷϨϕϧʹ͋Δ૊৫͸ɺΞʔΩςΫνϟɺϓϩμΫτɺϓϩη εΛମܥతʹมߋ͢Δ͜ͱͰϦεΫͷΫϥεΛ؅ཧ͢Δ • Visionary: ৴པੑͷ࠷ߴҐʹ౸ୡ͓ͯ͠Γɺ৴པੑ΁ͷ෯޿͍औΓ૊ΈΛ ϕετϓϥΫςΟε͓Αͼܦݧʹج͍ͮͯࣾ಺֎ͰਪਐͰ͖Δʢͨͱ͑͹ ॻྨͷ࡞੒΍஌ࣝͷڞ༗ͳͲʣ 3 ૊৫ͷ৴པੑͷϚΠϯυηοτ:Google SRE ͷ஌ݟ 20

ิ଍: ৴པੑͷϚΠϯυηοτ ͱϓϩμΫτͷঢ়ଶ • Absent: ։ൃதͷϓϩμΫτʹ౰ͯ͸·ΔՄೳੑ͕͋ Δ • Reac-ve: ϦϦʔεલ·ͨ͸҆ఆత௕ظҡ࣋ϑΣʔζ
ͷϓϩμΫτʹ౰ͯ͸·Δ • Proac-ve: ΄ͱΜͲͷϓϩμΫτ͕͜ͷϨϕϧʹ͋Δ ΂͖ • Strategic: ϏδωεΫϦςΟΧϧͳχʔζΛຬͨͨ͢ Ίʹߴ͍Մ༻ੑΛඞཁͱ͢ΔϓϩμΫτʹ౰ͯ͸·Δ • Visionary: ͜ͷϨϕϧʹ౸ୡ͍ͯ͠ΔϓϩμΫτ͸΄ ͱΜͲͳ͍ 21

ࢀߟ: ϓϩμΫτͷϑΣʔζͱٻΊΒΕΔ৴པੑͷมԽ 22

੒ख़Ϩϕϧͷఆٛ ҎԼͷ4ஈ֊ͷఆٛΛߦͬͨ(Visionary͸֘౰͢Δέʔε͕গͳ͍ͨΊׂѪ)ɻ • Absent • ΠϯγσϯτϨεϙϯε؀ڥ͕΄΅ະ੔උͰ͋ΓɺଐਓతͳରԠ͕ৗଶԽ͍ͯ͠Δঢ়ଶ • Reac*ve • ॏେͳো֐ͷରԠํ਑͸ఆ·͍ͬͯΔ΋ͷͷɺΠϯγσϯτϨεϙϯεͷ؀ڥվળ͸΄ͱΜͲߦΘΕ͍ͯͳ͍ঢ়ଶ
• Proac*ve • ૊৫શମͰରԠΛߦ͏ମ੍͕੔͓ͬͯΓɺPre-Incident΍Post-IncidentͷϑΣʔζͷऔΓ૊ΈʹΑͬͯࣄલʹϦεΫΛ௿ݮ ͍ͯ͠Δঢ়ଶ • Strategic • ͦΕͧΕͷϓϩηε͕ମܥԽɾ࢓૊ΈԽ͞Ε͓ͯΓɺϑΟʔυόοΫϧʔϓΛճ͠ͳ͕ΒΠϯγσϯτରԠͷෛ୲Λ࠷খԽ ͠ଓ͚͍ͯΔঢ়ଶ 23

ධՁࢦඪͷࡉ෼Խ • ΠϯγσϯτϨεϙϯεͷϓϩηε͸ଟذʹΘͨΔͨΊɺ֤Ϩϕϧͷఆٛͩ ͚Ͱ͸࣮༻ੑ͕๡͍͠ • → ΠϯγσϯτରԠલɺରԠதɺରԠޙͷ3ϑΣʔζ͝ͱʹɺͦΕͧΕ3ͭ ͷϓϩηεΛධՁ͢Δ • Pre-Incident
ϑΣʔζ: ݕ஌ɺରԠϑϩʔɺτϨʔχϯά • Response ϑΣʔζ: ݖݶҕৡɺ࢓૊ΈԽɺίϥϘϨʔγϣϯ • Post-Incident ϑΣʔζ: ֶशɺ෼ੳɺࣄޙλεΫ 24

ΠϯγσϯτϨεϙϯε੒ख़౓Ϟσϧ 25

ΠϯγσϯτϨεϙϯεվળͷεςοϓ 1. ੒ख़౓ϞσϧΛ΋ͱʹɺ9ͭͷϓϩηεʹରͯ͠ϨϕϧΛ൑ఆ͢Δ 2. 1Λ΋ͱʹɺAbsentʙStrategicͷͲͷ͋ͨΓʹࣗ෼͕ͨͪҐஔ͍ͯ͠Δ ͔Λ֬ೝ͢Δ 3. ؔ܎ऀͱͱ΋ʹɺΠϯγσϯτϨεϙϯεͷ͋Δ΂͖ঢ়ଶΛσΟεΧο γϣϯ͢Δ 4.
վળͷํ޲ੑ͕ఆ·ͬͨΒɺ֤ϓϩηε͝ͱʹ۩ମతͳվળͷΞΫγ ϣϯΛఆΊΔ 28

վળͷεςοϓͷ۩ମྫ 1. ੒ख़౓ϞσϧΛ΋ͱʹ9ͭͷϓϩηεʹରͯ͠ධՁΛߦ͏ • ex. Training: AbsentɺDetec5on: Reac5ve...... 2. 1Λ΋ͱʹɺAbsentʙStrategicͷͲͷ͋ͨΓʹࣗ෼͕ͨͪҐஔ͍ͯ͠Δ͔Λ֬ೝ͢Δ
• ex. 9ͭதେ൒Λ઎Ί͍ͯΔϨϕϧ͸͋Δ͔Λ֬ೝ͢Δ 3. ؔ܎ऀͱͱ΋ʹɺΠϯγσϯτϨεϙϯεͷ͋Δ΂͖ঢ়ଶΛσΟεΧογϣϯ͢Δ • ex. Pre-IncidentϑΣʔζ͕શମతʹ௿͍͚Ͳվળͨ͠΄͏͕Α͍ͩΖ͏͔ 4. վળͷํ޲ੑ͕ఆ·ͬͨΒɺ֤ϓϩηε͝ͱʹ۩ମతͳվળͷΞΫγϣϯΛఆΊΔ • ex. ఆܕλεΫͷࣗಈԽʹऔΓ૊΋͏ 29

֘౰ՕॴΛ৭෇͚͢Δͱશମײ͕͔ͭΈ΍͍͢ 30

ϑΣʔζϚΠάϨʔγϣϯͷϙΠϯτ 31

Absent → Reac,ve • վળ֓ཁ • ΫϦςΟΧϧͳো֐ͷϑΥϩʔ͕ਝ଎ʹͰ͖ ΔΑ͏ʹͳΓɺ৴པੑ͕޲্͢Δ • ΩʔϙΠϯτ
• ॏେͳΠϯγσϯτͷΈʹείʔϓΛߜ্ͬͨ ͰɺPre-IncidentϑΣʔζͱPost-IncidentϑΣ ʔζͷ׆ಈΛ෦෼తʹ͸͡ΊΔ͜ͱʹ஫ྗ͢Δ • ஫ҙ఺ • ݕ஌ͷ࢓૊Έ͚ͩΛ੔උͯ͠΋ɺରԠϑϩʔ ͕ະఆٛͰ͸ࣦഊʹऴΘΔࣄ͕ଟ͍ 32

Reac%ve → Proac%ve • վળ಺༰ • ΠϯγσϯτϨεϙϯεࣗମͷվળ͕ߦΘΕɺτΠ ϧղফ΍࠶ൃ๷ࢭ͕ਐΉͨΊɺ૊৫શମͷΠϯγσ ϯτରԠෛՙ͕ܰݮ͞Ε͸͡ΊΔ •
ΩʔϙΠϯτ • ֤ϓϩηεͷମܥԽͱ࢓૊ΈԽΛओ؟ʹ্͓͍ͯ Ͱɺιϑτ΢ΣΞΤϯδχΞϦϯάΛϕʔεʹվળ ׆ಈΛߦ͏ • ஫ҙ఺ • ૊৫શମΛר͖ࠐΉࢪࡦ͕૿͑ΔͨΊɺ΂͖࿦ʹج ͍ͮͯҰؾʹਐΊͨΓ͸ͤͣɺ֤ϓϥΫςΟε͝ͱ ʹஈ֊తʹਐΊΔͱΑ͍ 33

Proac&ve → Strategic • վળ಺༰ • গͳ͍ϦιʔεͰ࠷େݶͷՁ஋͕ಘΔͨΊʹɺ ͜Ε·Ͱߏஙͨ͠࢓૊ΈΛ͞ΒʹϒϥογϡΞ οϓ͠ɺΠϯγσϯτͷෛ୲Λ࠷খԽ͢Δ •
ΩʔϙΠϯτ • σʔλυϦϒϯͳվળ͕ϕʔεʹͳΔͨΊɺଞ ͷΩʔϝτϦΫεͱ࿈ܞ͠ͳ͕ΒɺΠϯύΫτ ͷେ͖͍ࢪࡦʹ஫ྗ͢Δ • ஫ҙ఺ • ߴ౓ͳઐ໳஌ࣝΛඞཁͱ͢Δࢪࡦ͕ଟ͍ͨΊɺ վળ׆ಈࣗମ͕ଐਓԽ͠ͳ͍Α͏ʹ஫ҙ͢Δ 34

੒ख़౓ϞσϧΛΑΓޮՌతʹ׆༻͢ΔͨΊʹ • ࠓճͷϞσϧΛ͖ͨͨ୆ͱͯ͠ɺࣗ૊৫޲͚ʹվมͯ͠ར༻͢ Δ • ex. ߲໨ΛݮΒ͢/૿΍͢ɺҰஈ֊ͣͭϨϕϧΛͣΒ͢ • ۩ମతͳΞΫγϣϯϓϥϯ͕૝ఆͰ͖Δ৔߹͸௥ه͢Δ •
૊৫ͷϚΠϯυηοτΛϑΣʔζϚΠάϨʔγϣϯ͢ΔͨΊʹ ͸ɺΠϯγσϯτϨεϙϯεҎ֎ͷྖҬͷվળ΋ॏཁ 35

஫ҙ: ద੾ͳशख़౓Ϩϕϧͷݕ౼ • ͢΂ͯͷ૊৫͕ Strategic Λ໨ࢦ͢ඞཁ͸ͳ͍ • ৴པੑͷϚΠϯυηοτಉ༷ɺϓϩμΫτͷεςʔδ΍૊৫ͷ ΧϧνϟʔʹΑͬͯɺద੾ͳϨϕϧ͸ҟͳΔ •
ex. ϦϦʔεલͷϓϩμΫτ => ৴པੑͷ༏ઌ౓͕ஶ͘͠௿͍ ͨΊ Absent Ͱ໰୊ͳ͠ 36

੒ख़౓ϞσϧʹΑͬͯಘΒΕͨ΋ͷ • ؇΍͔ʹ෼ྨ্ͨ͠Ͱɺத௕ظతͳվળͷํ޲ੑΛࣔͤΔΑ͏ʹͳΓ͍ͨ • → ੒ख़౓ϨϕϧΛϕʔεʹ໨ඪΛఆΊΔ͜ͱͰɺํ޲ੑΛڞ༗͠ͳ͕Βվળ͕ਐΊ ΒΕΔΑ͏ʹͳͬͨ • ૊৫Λר͖ࠐΈ΍͘͢͢ΔͨΊʹɺஈ֊తͳվળͷεςοϓΛͭ͘Γ͍ͨ •
→ 9ͭͷϓϩηε͝ͱʹஈ֊తʹਐΊΔ͜ͱ͕Ͱ͖ΔΑ͏ʹͳͬͨ • ੒ख़ͨ͠اۀ͕໨ࢦ͢ཧ૝ঢ়ଶ΋ؚΊͯݴޠԽ͢Δ • → StrategicͷఆٛʹΑͬͯɺ(ࠓ·ͰΑΓ͸)ΑΓൃలతͳվળఏҊͰ͖ͦ͏(ະݕূ) 37

·ͱΊ • ΠϯγσϯτϨεϙϯεͷ੒ख़౓ϞσϧΛఏҊ͠·ͨ͠ • ੒ख़౓ϞσϧΛ׆༻͢Δ͜ͱͰɺϓϩηε୯ҐͰͷվળ͸΋ͪ ΖΜɺํ޲ੑΛࣔ͠ͳ͕Βվળ͢Δํ๏Λࣔ͠·ͨ͠ • ੒ख़౓ϞσϧΛΑΓ࣮ફతʹ͢ΔͨΊʹɺΑΓৄࡉͳυΩϡϝ ϯτͷඞཁੑʹݴٴ͠·ͨ͠ 38

͋Γ͕ͱ͏͍͟͝·ͨ͠ 39

組織的なインシデント対応を目指して〜成熟度評価と改善のステップ〜 / Towards an O...

組織的なインシデント対応を目指して〜成熟度評価と改善のステップ〜 / Towards an Organized Incident Response - Maturity Assessment and Improvement Steps -

More Decks by Narimichi Takamura

Other Decks in Technology

Featured

Transcript