일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 런데이애플워치
- apollo-sandbox
- 플라스틱은 어떻게 브랜드의 무기가 되는가
- 티지아이포럼
- 중사랑
- 여행
- 저동하녹
- 마법의연금굴리기
- deepseek
- 런데이
- 한국걱정
- Zone2
- neovim
- 프로젝트헤일메리
- 일권하는사회
- 마연굴
- lner
- 가람집옹심이
- 오운완
- kafka-connect
- schema-registry
- 잘쉬어야지
- 송고버섯피자
- 트럼프2.0시대
- 루스틱
- 달리기
- 여니브레드
- apollo-server-v3
- 강릉여행
- 이코노미스트한국구독센터
- Today
- Total
목록개발/spark (4)
해뜨기전에자자
문제 며칠 전 spark SQL로 조회하던 parquet 파일 베이스의 hive external table의 필드 schema의 대소문자가 꼬여 문제가 생겼던 적이 있다. 어떤 field는 대소문자를 구분했고, 어떤 필드는 소문자로만 보였다. case-sensitive와 case-insesitive가 섞인 mixed-case 의 형태를 보인 것이다. spark.sql('FROM tbl').printSchema() root |-- isValid: string (nullable = true) # 대소문자를 구분한다 |-- requestid: string (nullable = true) # parquet schema상으로는 reqeustId이지만, 소문자로만 조회가 된다. ..개발 및 테스트 과..
unique column이 정해져 있을 때 spark mongodb upsert를 하려면 아래와 같이 하면 된다. import json df.write.format('com.mongodb.spark.sql') \ .option('collection', 'target_collection') \ .option('replaceDocument', 'true') \ .option('shardKey', json.dumps({'date': 1, 'name': 1, 'resource': 1})) \ .mode('append') \ .save() 새로운 document로 repl..
timezone 설정과 datetime handling은 필수적이고 기본적인 것들 중 하나다. datetime을 다룰때는 기본적으로 UTC를 잡아서 쓰고 timezone을 반드시 포함하여 저장하는 것이 좋다. 그 중 pyspark의 datetime handling 함수들을 정리할 겸, 샘플 코드를 작성했고, session.timezone을 UTC, Asia/Seoul 로 돌려 봤을 때의 결과를 정리했다. 실행 환경은 spark 2.3.2, docker on yarn 환경이다. pyspark를 다룰 때 참고할 document 문서 https://spark.apache.org/docs/2.3.2/api/python/pyspark.sql.html Spark session timezone setting spar..
standalone cluster with standby masters 구성참고: https://spark.apache.org/docs/2.3.0/spark-standalone.htmlbriefly.. standby master구성을 위해 zookeeper를 이용함standalone는 걍 하둡은 접근가능하지만 kerberized hdfs 에 접근하는 방법을 제공하고있지 않음. ㅜㅜ # 준비environment:- centos 7.4- java 8- ssh key setting- zookeeper for HA- serversspark-master01spark-master02spark-slave01spark-slave02spark-slave03 # 설정master01 에서 설정을 모두 마친다음 master0..