Real-time Data Integration at Scale with Kafka Connect - Dublin Apache Kafka Meetup 04 Jul 2017

1 Real-time Data Integration at Scale with Kafka Connect Robin
Moffatt Partner Technology Evangelist, EMEA @ Confluent @rmoff [email protected]

5 Kafka Connect in the Apache Kafka ecosystem

6 Kafka Connect : Separation of Concerns

8 Single Message Transform (SMT) -- Extract, TRANSFORM, Load… •
Modify events before storing in Kafka: • Mask/drop sensitive information • Set partitioning key • Store lineage • Modify events going out of Kafka: • Route high priority events to faster data stores • Direct events to different ElasticSearch indexes • Cast data types to match destination

9 Kafka Connect API Library of Connectors Databases Analytics Applications
/ Other Datastore/File Store https://www.confluent.io/product/connectors/

10 Streaming Application Data to Kafka • Applications are rich
source of events • Modifying applications is not always possible or desirable • And what if the data gets changed within the database or by other apps? • JDBC is one option for extracting data

11 Liberate Application Data into Kafka with CDC • Relational
databases use transaction logs to ensure Durability of data • Change-Data-Capture (CDC) mines the log to get raw events from the database • CDC tools that integrate with Kafka Connect include: • Debezium • DBVisit • GoldenGate • Attunity • + more

12 Kafka Connect Common Patterns – Data Integration into Data
Lake for batch analytics Oracle DB2 MS SQL Postgres MySQL Cassandra MongoDB Couchbase HBase S3 / Athena HDFS BigQuery Elasticsearch Solr CRM ERP WebApp Twitter IRC Bloomberg … Kafka Connect Mainframe (e.g. VSAM)

13 Common Patterns – Event-Driven microservices CRM WebApp Orders Service
Stock Service Cassandra MongoDB Couchbase HBase S3 / Athena HDFS BigQuery Elasticsearch Solr Kafka Connect Oracle DB2 MS SQL Postgres MySQL Twitter IRC Bloomberg … Kafka Connect Mainframe (e.g. VSAM) ERP

14 Common Patterns – Event-Driven microservices & audit/search/storage CRM WebApp
Orders Service Stock Service Cassandra MongoDB Couchbase HBase S3 / Athena HDFS BigQuery Elasticsearch Solr Kafka Connect Oracle DB2 MS SQL Postgres MySQL Twitter IRC Bloomberg … Kafka Connect Mainframe (e.g. VSAM) ERP

15 The Numerous Benefits of Kafka Connect • Restart capabilities
(offset management) • Distributed workers • Parallelism (for throughput) • Load balancing • Fault tolerance • Schema preservation • Data serialisation • Centralised management and configuration

16 Kafka Connect – under the covers • Each Kafka
Connect node is a worker • Each worker executes one or more tasks • Tasks do the actual work of pulling data from sources / landing it to sinks • Kafka Connect manages the distribution and execution of tasks • Parallelism, fault-tolerance, load balancing all handled automatically

19 Kafka Connect – Standalone vs Distributed • Kafka Connect
has two modes: standalone or distributed • Distributed - Scaleout & fault tolerance easy – just add more workers • Can run on one node! • Standalone - Useful for where data source is machine-specific (e.g. single-node log files)

20 Kafka Connect - Converters • Data from source system
is in its own format (e.g. RecordSet from JDBC) • Kafka Connect’s Converters provide reusable functionality to serialise data into JSON or Avro • The Confluent Schema Registry is used to stores schemas of ingested data http://docs.confluent.io/current/connect/concepts.html#converters

21 Configuring Kafka Connect - REST API • Configure &
control Kafka Connect through REST API • Validate connector configuration • Create connectors • List available plugins • Query connector & task state • Pause, resume, restart connectors + tasks • Configuration is persisted through a Kafka topic • Reference : http://docs.confluent.io/current/connect/restapi.html

22 Configure Kafka Connect with Confluent Control Center

23 Monitor Your Data Pipeline from End to End with
Confluent Control Center

26 Confluent: a Streaming Platform based on Apache Kafka™ Database
Changes Log Events loT Data Web Events … CRM Data Warehouse Database Hadoop Data Integration … Monitoring Analytics Custom Apps Transformations Real-time Applications … Apache Open Source Confluent Open Source Confluent Enterprise Confluent Platform Confluent Platform Apache Kafka™ Core | Connect| Streams Data Compatibility Schema Registry Monitoring & Administration Confluent Control Center Operations Replicator | Auto Data Balancing Development and Connectivity Clients | Connectors | REST Proxy

27 Kafka Connect – Getting Started • Docs : http://docs.confluent.io/current/connect/
• Includes Quickstart and full Connect documentation including Architecture + Internals • Official Confluent Platform Docker images available • http://docs.confluent.io/current/cp-docker- images/docs/quickstart.html#kafka-connect • List of connectors • https://www.confluent.io/product/connectors/ • Also search on github https://github.com/search?q=kafka-connect https://www.confluent.io/download/ @rmoff [email protected]

Real-time Data Integration at Scale with Kafka ...

Real-time Data Integration at Scale with Kafka Connect - Dublin Apache Kafka Meetup 04 Jul 2017

Robin Moffatt

More Decks by Robin Moffatt

Other Decks in Technology

Featured

Transcript

1 Real-time Data Integration at Scale with Kafka Connect Robin

2

3

4

5 Kafka Connect in the Apache Kafka ecosystem

6 Kafka Connect : Separation of Concerns

7

8 Single Message Transform (SMT) -- Extract, TRANSFORM, Load… •

9 Kafka Connect API Library of Connectors Databases Analytics Applications

10 Streaming Application Data to Kafka • Applications are rich

11 Liberate Application Data into Kafka with CDC • Relational

12 Kafka Connect Common Patterns – Data Integration into Data

13 Common Patterns – Event-Driven microservices CRM WebApp Orders Service

14 Common Patterns – Event-Driven microservices & audit/search/storage CRM WebApp

15 The Numerous Benefits of Kafka Connect • Restart capabilities

16 Kafka Connect – under the covers • Each Kafka

17 Kafka Connect – under the covers • Each Kafka

18 Kafka Connect – under the covers • Each Kafka

19 Kafka Connect – Standalone vs Distributed • Kafka Connect

20 Kafka Connect - Converters • Data from source system

21 Configuring Kafka Connect - REST API • Configure &

22 Configure Kafka Connect with Confluent Control Center

23 Monitor Your Data Pipeline from End to End with

25

26 Confluent: a Streaming Platform based on Apache Kafka™ Database

27 Kafka Connect – Getting Started • Docs : http://docs.confluent.io/current/connect/