목록전체 글 (48)
Writing creates memory
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. 오늘은 Apache Spark의 핵심 개념 중 하나인RDD(Resilient Distributed Dataset)에 대해 학습했다.스파크의 가장 기초적이면서도 중요한 추상화 객체로,이후 다양한 스파크 기능을 이해하는 데 있어서 기본이 되는 개념이다. 오늘은 이 RDD의 주요 구성 요소에 대해 살펴봤다. 1. 강의 들은 시간 강의가 2분 남짓이라 너무 짧나 싶어 더 들을까 했지만 오늘은 주말이니까ㅎㅎ시작시간 : 오후 1시 38분 / 종료시간 : 오후 1시 44분 2. 수강 클립과 후기수강 클립과 학습인증 후기 알게 된 내용 RDD는 스파크에서 분산 처리를 효율적으로 수행할 수 있도록 설계된 데이터 모델이다. 단순히 데이터를 나눠 저장하..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.오늘은 Apache Spark의 핵심 개념 중 하나인Transformation, Action, Lazy Evaluation에 대해 학습했다. Spark의 연산이 어떤 식으로 구성되어 있고,그 연산들이 실제로 언제 실행되는지를 이해하는 게 주요 목표였다. 1. 강의 들은 시간 강의는23분 수강했다. 강의 자체는 짧았는데, 환경 구성을 다시 하느라 시간이 걸렸다.시작시간 : 오후 6시 17분 / 종료시간 : 오후 6시 40분 2. 수강 클립과 후기수강 클립과 학습인증 후기 알게 된 내용Spark에서는 데이터를 다룰 때 Transformation과 Action으로 구분해서 처리한다. Transformation은 RDD, 데이터프레임을 넣..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.오늘은 스파크 애플리케이션의 구성 요소에 대해 학습했다. 클러스터 환경에서 스파크가 어떻게 동작하는지를 이해하기 위한 핵심 구성 요소들이며, 이를 통해 데이터 처리 흐름의 큰 그림을 잡을 수 있다. 1. 강의 들은 시간 강의는13분 수강했다.시작시간 : 오후 11시 06분 / 종료시간 : 오후 11시 19분 2. 수강 클립과 후기수강 클립과 학습인증 후기 알게 된 내용스파크는 단순한 코드 몇 줄로 끝나는 게 아니라, 여러 구성 요소들이 유기적으로 동작하면서 대용량 데이터를 효율적으로 처리한다는 걸 알게 됐다.클러스터 매니저는 전체 리소스를 관리하는 관리자 역할을 한다. 예를 들어, 드라이버가 요청하면 실행기를 시작하거나 중단하는 일을 ..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다.PySpark를 본격적으로 배우기 전, 간단한 실습을 통해 전체적인 흐름을 먼저 파악해보는 시간을 가졌다. Word Count 예제를 직접 작성해보면서 PySpark 코드의 구조와 실행 결과가 어떤 식으로 나오는지 살펴봤고,앞으로 학습할 핵심 개념인 Transformation과 Action에 대해서도 간단히 소개했다. 또, PySpark에서 데이터를 다루는 두 가지 주요 구조인 RDD와 DataFrame도 처음 접했으며, DataFrame은 Python의 Pandas와 유사한 방식으로 다룰 수 있다는 점이 흥미로웠다. 수업 시작 전에 개발 환경 세팅도 함께 진행해서 앞으로 실습할 준비를 마쳤다. 1. 강의 들은 시간 강의는 40분 수강했..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. 데이터 엔지니어링 기술을 배우기에 앞서,오늘은 스파크의 철학을 먼저 살펴보았다. 스파크의 궁극적인 활용 목적을 이해하는 데 집중했다.배경을 이해하면 학습과 실습에 도움이 되겠지. 1. 강의 들은 시간 강의는 10분 수강했다. 시작시간 : 오전 8시 50분 / 종료시간 : 오전 9시 2. 수강 클립과 후기수강 클립과 학습인증 후기 알게 된 내용스파크는 네 가지 핵심 철학을 중심으로 설계되어 있다. 첫째, 속도다. 중간 연산 결과를 메모리에 유지해 디스크 입출력을 줄이고, DAG(Directed Acyclic Graph)를 통해 전체 연산 흐름을 효율적으로 관리한다. DAG는 스케줄링과 질의 최적화를 돕고, 병렬 태스크로 나누어 클러스터에..
본 포스팅은 패스트캠퍼스 환급 챌린지 참여를 위해 작성하였습니다. LLM이 점점 많은 곳에서 활용되면서,모델 성능뿐 아니라데이터를 어떻게 준비하고 다루는지가실질적인 LLM 운영의 성패를 가르는 요소가 되고 있다. 이를 위해 LLMOps 강의를 듣게 됐다. 오늘은 LLM 교육의 첫 시간으로,강의의 목표와 데이터 수명 주기를 공부했다. 1. 강의 들은 시간 강의는 30분정도 수강했다. 시작시간 : 오후 9시 56분종료시간 : 오후 10시 24분 2. 수강 클립과 후기수강 클립과 학습인증 오늘은 `데이터 엔지니어링 개요 및 주요 기술 소개`에서 데이터 수명 주기를 공부했다. 후기 데이터가 중요하다최근 LLM을 활용한 서비스 개발로 업무가 전환됐다. 다양한 프롬프트와 모델 튜닝이 중요하다는 것은 많이 알려..
결론LangChain에서 JsonOutputParser 에러, () 안 붙여서 생긴 TypeError 에러 메세지TypeError: BaseModel.__init__() takes 1 positional argument but 2 were given에러 메시지를 보면 pydantic.BaseModel과 관련되어 있어서 처음엔 “내 JSON이 이상한가?” 했지만… 알고 보니 문제는 전혀 다른 데 있었다. 에러 발생 코드from langchain.output_parsers import JsonOutputParserchain = ( prompt | llm | JsonOutputParser # ❌ 이렇게 하면 에러 발생!) 해결 방안 - 꼭 ()를 붙여 인스턴스로 넘기세요`JsonOutputP..