일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- schema-registry
- 송고버섯피자
- 프로젝트헤일메리
- 한국걱정
- Zone2
- neovim
- 잘쉬어야지
- 여니브레드
- 강릉여행
- 가람집옹심이
- lner
- 중사랑
- 플라스틱은 어떻게 브랜드의 무기가 되는가
- 저동하녹
- 런데이
- 런데이애플워치
- 여행
- apollo-server-v3
- apollo-sandbox
- 티지아이포럼
- kafka-connect
- 트럼프2.0시대
- 일권하는사회
- 오운완
- 달리기
- 마법의연금굴리기
- deepseek
- 이코노미스트한국구독센터
- 루스틱
- 마연굴
- Today
- Total
해뜨기전에자자
timezone 설정과 datetime handling은 필수적이고 기본적인 것들 중 하나다. datetime을 다룰때는 기본적으로 UTC를 잡아서 쓰고 timezone을 반드시 포함하여 저장하는 것이 좋다. 그 중 pyspark의 datetime handling 함수들을 정리할 겸, 샘플 코드를 작성했고, session.timezone을 UTC, Asia/Seoul 로 돌려 봤을 때의 결과를 정리했다. 실행 환경은 spark 2.3.2, docker on yarn 환경이다. pyspark를 다룰 때 참고할 document 문서 https://spark.apache.org/docs/2.3.2/api/python/pyspark.sql.html Spark session timezone setting spar..
클린코드로 유명한 엉클밥의 다른 책, 클린 코더다. 프로란 어때야하는가를 중점적으로 '이래라 저래라'하는 책이다. 프로에 대한 막연한 생각을 정리하는데 도움이 되었다. 엉클밥은 회사에 손해를 끼쳤다면 그 손해를 물어주는 것이 프로의 자세라고 말한다. 그런 일이 나에게 일어난다면 과연 그럴 수 있을까 라는 생각도 들지만, 더 책임감 있게, 개발에 최선을 다해야 겠다는 생각이 들었다. 손해를 감당해야 프로이기 때문이라기 보다는, 그래야 멋있으니까. 집중력이 극에 달할 때 들어서는 영역인 '존'이 가독성 있는 개발에 도움이 되지 않는 다는 부분이 공감되었다. 존에서 개발했던 부분은 어느 정도는 삽질 영역이고 필요하지 않은 부분이었던 경우가 많았다. 엉클 밥은, 이런 경우에 다른 사람과 대화를 하면서 개발을 하..
한줄 요약 airflow는 workflow engine이다. 매일 돌아야 하는 offline배치를 파이프라인 구성하는 것이 목적인 툴이다. hdfs, spark, aws s3 등 다양한 operator를 지원해서 사용자 풀 및 레퍼런스도 많은 편이다. 요즘은 k8s를 많이 써서 argo같은 대체제도 있는 듯 하다. 아키텍처 https://airflow.apache.org/docs/stable/executor/celery.html 현재 db로는 postgre, queue로는 redis를 쓰고 있다. 기본 컨셉 https://airflow.apache.org/docs/stable/concepts.html DAG는 태스크로 구성된다 각 태스크는 오퍼레이터 클래스를 인스턴스화하여 만든다. 구성한 오퍼레이터 인스..