[VirtualJUG] Apache Kafka — A Streaming Data Platform

@ @gamussa @virtualJUG @confluentinc @gamussa @virtualJUG @confluentinc

@ @gamussa @virtualJUG @confluentinc

@ @gamussa @virtualJUG @confluentinc Solutions Architect Developer Advocate @gamussa in
internetz Hey you, yes, you, go follow me in twitter © Who am I?

@ @gamussa @virtualJUG @confluentinc Kafka & Confluent

@ @gamussa @virtualJUG @confluentinc We are hiring! https://www.confluent.io/careers/

@ @gamussa @virtualJUG @confluentinc A company is build on DATA
FLOWS but All we have is DATA STORES

@ @gamussa @virtualJUG @confluentinc Kafka Serving Layer (Cassandra, KV-storage, cache,
etc.) Kafka Streams / KSQL Continuous Computation High Throughput Messaging API based clustering Origins in Stream Processing

@ @gamussa @virtualJUG @confluentinc Streaming Platform 1.Pub / Sub 2.Store
3.Process

@ @gamussa @virtualJUG @confluentinc Kafka is a Streaming Platform The
Log Connectors Connectors Producer Consumer Streaming Engine

@ @gamussa @virtualJUG @confluentinc authorization_attempts possible_fraud What exactly is Stream
Processing?

@ @gamussa @virtualJUG @confluentinc CREATE STREAM possible_fraud AS SELECT card_number,
count(*) FROM authorization_attempts WINDOW TUMBLING (SIZE 5 MINUTE) GROUP BY card_number HAVING count(*) > 3; authorization_attempts possible_fraud What exactly is Stream Processing?

@ @gamussa @virtualJUG @confluentinc Streaming is the toolset for dealing
with events as they move!

@ @gamussa @virtualJUG @confluentinc What is a Streaming Platform? The
Log Connectors Connectors Producer Consumer Streaming Engine

@ @gamussa @virtualJUG @confluentinc Kafka’s Distributed Log The Log Connectors
Connectors Producer Consumer Streaming Engine

@ @gamussa @virtualJUG @confluentinc Similar to a traditional messaging system
(ActiveMQ, Rabbit etc) but with: (a) Far better scalability (b) Built in fault tolerance / HA (c) Storage The log is a type of durable messaging system

@ @gamussa @virtualJUG @confluentinc The log is a simple idea
Messages are added at the end of the log Old New

@ @gamussa @virtualJUG @confluentinc Consumers have a position all of
their own Sally is here George is here Fred is here Old New Scan Scan Scan

@ @gamussa @virtualJUG @confluentinc Only Sequential Access Old New Read
to offset & scan

@ @gamussa @virtualJUG @confluentinc Scaling Out

@ @gamussa @virtualJUG @confluentinc Shard data to get scalability Messages
are sent to different partitions Producer (1) Producer (2) Producer (3) Cluster of machines Partitions live on different machines

@ @gamussa @virtualJUG @confluentinc Replicate to get fault tolerance replicate
msg msg leader Machine A Machine B

@ @gamussa @virtualJUG @confluentinc Partition Leadership and Replication Broker 1
Topic1 partition1 Broker 2 Broker 3 Broker 4 Topic1 partition1 Topic1 partition1 Leader Follower Topic1 partition2 Topic1 partition2 Topic1 partition2 Topic1 partition3 Topic1 partition4 Topic1 partition3 Topic1 partition3 Topic1 partition4 Topic1 partition4

@ @gamussa @virtualJUG @confluentinc Replication provides resiliency A ‘replica’ takes
over on machine failure

@ @gamussa @virtualJUG @confluentinc Partition Leadership and Replication - node
failure Broker 1 Topic1 partition1 Broker 2 Broker 3 Broker 4 Topic1 partition1 Topic1 partition1 Leader Follower Topic1 partition2 Topic1 partition2 Topic1 partition2 Topic1 partition3 Topic1 partition4 Topic1 partition3 Topic1 partition3 Topic1 partition4 Topic1 partition4

@ @gamussa @virtualJUG @confluentinc Linearly Scalable Architecture Single topic: -
Many producers machines - Many consumer machines - Many Broker machines No Bottleneck!! Consumers Producers

@ @gamussa @virtualJUG @confluentinc Worldwide, localized views 34 NY London
Tokyo Replicator Replicator Replicator

@ @gamussa @virtualJUG @confluentinc The Connect API The Log Connectors
Connectors Producer Consumer Streaming Engine

@ @gamussa @virtualJUG @confluentinc Ingest / Egest into any data
source Kafka Connect Kafka Connect

@ @gamussa @virtualJUG @confluentinc Ingest/Egest data from/to data sources Amazon
S3 Elasticsearch HDFS JDBC Couchbase Cassandra Oracle SAP Vertica Blockchain JMX Kenesis MongoDB MQTT NATS Postgres Rabbit Redis Twitter Bintray DynamoDB FTP Github BigQuery Google Pub Sub RethinkDB Salesforce Solr Splunk

@ @gamussa @virtualJUG @confluentinc Kafka Streams and KSQL The Log
Connectors Connectors Producer Consumer Streaming Engine

@ @gamussa @virtualJUG @confluentinc SELECT card_number, count(*) FROM authorization_attempts WINDOW
(SIZE 5 MINUTE) GROUP BY card_number HAVING count(*) > 3; Engine for Continuous Computation

@ @gamussa @virtualJUG @confluentinc But it’s just an API public
static void main(String[] args) { StreamsBuilder builder = new StreamsBuilder(); builder.stream("caterpillars") .map(StreamsApp::coolTransformation) .to("butterflies"); new KafkaStreams(builder.build(), props()).start(); }

@ @gamussa @virtualJUG @confluentinc Compacted Topic Join Stream Table Kafka
Kafka Streams / KSQL Topic Join Streams and Tables

@ @gamussa @virtualJUG @confluentinc KAFKA Payments Orders Buffer 5 mins
Emailer Windows / Retention – Handle Late Events In an asynchronous world, will the payment come first, or the order? Join by Key

@ @gamussa @virtualJUG @confluentinc Windows / Retention – Handle Late
Events KAFKA Payments Orders Buffer 5 mins Emailer Join by Key KStream orders = builder.stream("Orders"); KStream payments = builder.stream("Payments"); orders.join(payments, KeyValue::new, JoinWindows.of(1 * MIN)) .peek((key, pair) -> emailer.sendMail(pair));

@ @gamussa @virtualJUG @confluentinc A KTable is just a stream
with infinite retention KAFKA Emailer Orders, Payments Customers Join

@ @gamussa @virtualJUG @confluentinc A KTable is a stream with
infinite retention KAFKA Emailer Orders, Payments Customers Join Materialize a table in two lines of code! KStream orders = builder.stream("Orders"); KStream payments = builder.stream("Payments"); KTable customers = builder.table("Customers"); orders.join(payments, EmailTuple::new, JoinWindows.of(1*MIN)) .join(customers, (tuple, cust) -> tuple.setCust(cust)) .peek((key, tuple) -> emailer.sendMail(tuple));

@ @gamussa @virtualJUG @confluentinc The Log Connectors Connectors Producer Consumer
Streaming Engine Kafka is a complete Streaming Platform

@ @gamussa @virtualJUG @confluentinc Find your local Meetup Group https://cnfl.io/kafka-meetups
Join us in Slack http://cnfl.io/slack Grab Stream Processing books https://cnfl.io/book-bundle

@ @gamussa @virtualJUG @confluentinc www.kafka-summit.org promo: Gamov20

@ @gamussa @virtualJUG @confluentinc https://www.confluent.io/download/

@ @gamussa @virtualJUG @confluentinc One more thing…

@ @gamussa @virtualJUG @confluentinc A Major New Paradigm

@ @gamussa @virtualJUG @confluentinc Thanks! @gamussa [email protected] We are hiring!
https://www.confluent.io/careers/

[VirtualJUG] Apache Kafka — A Streaming Data Pl...

[VirtualJUG] Apache Kafka — A Streaming Data Platform

More Decks by Viktor Gamov

Other Decks in Programming

Featured

Transcript