본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.
https://bit.ly/4hTSJNB


I. 학습 인증샷 4장 이상 포함

1. 공부시작: 날짜, 시각 다 나오도록

공부 시작

2. 공부 종료: 날짜 시각 다 나오도록

공부 종료

3. 1개 클립 수강 (강의장 목록 캡쳐, 수강화면이 보이지 않도록) 1장

clip 4-1

4. 학습 인증샷 1장(필기 촬영이나 작업물 촬영)


II. 학습 후기 700자 이상 (공백 제외)

새로운 챕터인 트러블 슈팅에서 첫시간으로 카프카 모니터링에 대해 말한다.

요약

 JMX Metrics 모니터링

  • Kafka 브로커와 주키퍼는 JMX를 통해 시스템 메트릭을 제공
  • 원격 모니터링을 위해선 `KAFKA_JMX_OPTS` 환경 변수 설정 필요\
  • 도커 환경에서는 포트 설정과 함께 `confluentinc/cp-zookeeper` 이미지 사용
  • 권장 모니터링 도구: Grafana, Datadog, CloudWatch
  • https://docs.confluent.io/platform/current/kafka/monitoring.html

주키퍼 모니터링

  • https://zookeeper.apache.org/doc/current/zookeeperAdmin.html
  •  Four Letter Words 명령어(`stat`, `mntr` 등)로 기본 상태 확인 가능
  • `echo mntr | nc localhost 2181` 명령어 실행 시 연결 수/대기 요청 등 실시간 지표 획득
  • 주요 메트릭: zk_outstanding_requests, zk_avg_latency, zk_num_alive_connections[1]
  • 2
  • 3

브로커 시스템 메트릭

프로듀서/컨슈머 모니터링

  • 프로듀서:
    • request-rate: 초당 전송된 평균 req 수
    • request-latency-avg:  평균 latency(req 대기시간, ms)
    • outgoing-byte-rate: 초당 평균 outgoing/incoming bytes
  • 컨슈머:
    • records-lag-max: 해당 모든 파티션의 Record 수 측면의 최대 Lag
    • bytes-consumed-rate: 초당 소비된 바이트
    • fetch-rate: 초당 컨슈머가 브로커에게 가져오는 req 수


---

갑자기 바뀌는 챕터...

  • 갑자기 트러블 슈팅과 최적화 챕터가 나온다.. (이건 브록이나 후편에 나와야 하지 않을까?)
  • 일단 카프카 모니터링 첫 걸음 시간이다.
  • JMX 설정방법과 주키퍼의 모니터링 방법이 나온다.
    (이런건 실제 서버에서 따라 쳐야 익힐텐데....계속 이론만 나오고 있다..)
  • 도커의 JMX 설정 예시도 구체적으로 나오긴 하지만..실제 해당 부분은 본인이 해봐야 하는 가보다.
  • 여러 메트릭 종류를 설명해준다. 다만 실제 운영 환경에서는 어떤 기준을 위험 수준으로 판단해야 하는지 그런게 없다.
  • 슬라이드는 60% 디스크 사용 alert이라고 나오는데.. 60% alert는 너무 과한게 아닌가 싶다.
  • 운영에 있어서 특히 어떤 메트릭을 우선순위로 모니터링해야하는지도 알려주면 좋았을텐데.
  • 그리고 내가 알기로는 JMX외에 모니터링을 위한 오픈소스 연계도 많은 것으로 알고 있는데 강의에서 다루지 않는다.
    어작 기초라서 그런가?
  • 빨리 실습환경에서 실제 모니터링과 메트릭 시각화 하는 단계가 오면 좋겠다.
    이론만 22일이 넘게 보고 있으니
블로그 이미지

감동맨

rkaehdaos의 블로그

,