분류 전체보기109 aws personalize 데이터셋 준비 깃허브에서 데이터셋 다운로드 - item.csv, user-item-interaction.json을 사용할 것임 user-item-interaction.json 파일 형식을 csv파일로 변환하기 https://cdkm.com/kr/json-to-csv s3에 업로드 Create dataset group innovate-presonalize interaction interactionschema interactionImport s3://peach1102/user-item-interaction.csv 데이터를 가져오는 데 실패함. S3 접근이 막혀있기 때문 s3에서 버킷 정책 편집 { "Version": "2012-10-17", "Id": "PersonalizeS3BucketAccessPolic.. 2023. 6. 22. Managed Worflow for Apache Airflow 감 잡기! , StepFunction 워크플로우 파이프라인 시각화, 모니터링 에어플로우 문제점 MWAA MWAA 장점 빠르게 에어플로우 배포. 빠르고 쉽게 셋업 데모 시나리오 1. S3버킷에 정제되지 않은 원본 데이터가 들어온다 2. Crawler가 데이터를 읽어서 메타테이블을 만든다. 3. 메타테이블을 만든 다음 글루 잡을 실행하여 원본 파일을 읽어서 cleansing 작업과 파케이로 변환. S3(transformed)에 저장한다 4. EMR이 돌아가면서 데이터를 aggregation 해서 group by로 sum을 해서 S3에 저장한다 5. S3에 있는 데이터를 Redshift에 올려서 분석 쿼리를 날린다 Airflow DAG 구성 1. S3 Sensor : S3로 특정 폴더로 떨어지는 파일이 있는지 sensor가 감지하고 workflo.. 2023. 6. 17. [Airflow] - 2. Template Variable, 데이터 공유, Task 다루기 고급 Jinja 템플릿 설명 문서(파일)에서 특정 양식으로 작성된 값을 런타임시 실제 값으로 치환해주는 처리 엔진 ● 오퍼레이터 파라미터 입력시 중괄호 {} 2개를 이용하면 Airflow에서 기본적으로 제공하는 변수들을 치환된 값으로 입력할 수 있음. (ex: 수행 날짜, DAG_ID) Bash Operator에서 Jinja 템플릿 사용하기 templated될 수 있는 파라미터 - bash_command (str) - env (dict[str, str] | None) vscode에 dags 파이썬 파일 생성 ds : yyyy-mm-dd 형식 && : 앞에 있는 커맨드가 성공하면 뒤에 있는 커맨드를 실행하겠다 > git add . > git commit -m "bash jinja 업로드" > git push W.. 2023. 6. 16. [2023-06-14 수] 젠킨스 - 목차 - 1. 젠킨스 깃허브 통합 2. 깃허브 리포지토리를 pom.xml로 생성 3. 젠킨스 Maven 통합 4. Tomcat 서버 설치 5. 젠킨스 Tomcat 통합 6. 젠킨스 수동 빌드 7. 젠킨스 자동 빌드 1. 젠킨스 깃허브 통합 젠킨스가 자바로 짜여져있는 GitHub에 있는 jar 예제 코드를 가지고 와서 war로 빌드한 뒤 코드를 톰켓에 배포한다 개발자가 커밋해서 깃허브에 올려주면 젠킨스가 새로운 커밋이 발견하고 커밋된 코드를 가져온다 중지했다 시작하면 인스턴스 IP가 바뀌기 때문에 Route53에 레코드를 수정해준다 로그인 - admin a 젠킨스 서버에 깃허브 연동 hello-world 리포지토리 생성 --- Install Git on Jenkins Instance $ sudo su .. 2023. 6. 14. 이전 1 2 3 4 5 6 7 ··· 28 다음