S.T.A track 31

시계열 데이터 분석

시계열 데이터 -일정 시간 간격으로 기록된 데이터의 연속이다.-주가, 날씨, 웹사이트 트래픽, 판매량 등 주변의 수많은 데이터가 시계열 데이터에 해당한다. 시계열 데이터 생성 및 변환-데이터를 시간의 속성을 가진 객체로 만들어야 함 pd.to_datetime -문자열을 날짜 객체로 - 텍스트 파일이나 데이터베이스에서 가져온 날짜 데이터는 문자열 타입이다.-pd.to_datetime 함수는이러한 문자열을 Pandas가 인식할 수 있는 datetime객체로 변환하여 시간 기반의 계산과 분석을 가능하게 한다.import pandas as pdimport numpy as npimport plotly.express as pximport warningswarnings.filterwarnings('ignore')# ..

S.T.A track/python 2025.06.09

통계

통계확률 변수 : 무작위 실험의 결과에 의해 값이 결정되는 변수이산형 확률 변수 : 셀 수 있는 값을 가진다.연속형 확률 변수 : 특정 범위 내의 모든 실수 값을 가질 수 있다.확률 분포 : 확률 변수가 특정 값 또는 값의 범위에 속할 확률을 나탄는 함수 또는 규칙정규 분포가 제일 대표적인 예 주요 연속 확률 분포 정규 분포정의 :특징 : 종 모양의 대칭적인 분포 / 평균 = 중앙값 = 최빈값 / Z ~ N(0, 1)로 평균이 0이고, 표준편차가 1인 정규 분포활용 : 많은 통계적 방법론의 기초 가정, 금융 자산의 수익률 모델링 및 측정 오차에서 활용 t - 분포정의 : 정규 분포롸 유사한 종 모양이지만, 꼬리가 더 두꺼움특징 : 극단적인 값이 나타날 확률이 정규분포보다 높다 활용 : 소표본에서의 평균..

S.T.A track/python 2025.06.04

상관분석

상관분석-두 개 이상의 변수들 간에 어떤 관계가 있는지, 있다면 관계의 강도와 방향은 어떠한지를 통계적인 방법으로 분석하는 것 왜 중요한가?-데이터의 이해 : 데이터 내 변수들 사이의 숨겨진 패턴이나 관계를 파악할 수 있다-특성 선택 : 머신러닝 모델을 만들 때, 어떤 변수가 예측 결과에 중요한 역할을 할지 힌트를 얻을 수 있다 -의사결정 지원 : 분석 결과를 바탕으로 더 나은 비즈니스적 또는 과학적 의사결정을 내릴 수 있다. 상관계수-두 변수 간의 선형적 관계의 방향과 가도를 하나의 숫자로 나타낸 값-가장 널리 사용되는 상관계수는 피어슨 상관계수이다.이 계수는 두 변수가 모두 연속형 데이터일 때 주로 사용이 된다.-그 외에도 변수의 특성이나 관계의 혀태에 따라 스피어만 상관계수, 켄달의 타우등 다른 ..

S.T.A track/python 2025.06.04

통계 분석

기초 통계 기술 통계-수집된 데이터를 요약하고 설명하여 데이터의 주요 특징을 파악하는 데 도움을 준다. 중심 경향치(Central Tendency) 데이터의 중심을 나타내는 값평균 : 모든 데이터 값을 더한 후 데이터릐 총개수로 나눈 값 / 이상치에 민감하게 반응한다평균 > μ = (∑ xi) / N 또는 표본 평균: x̄ = (∑ xi) / n중앙값 : 데이터를 크기 순으로 정렬했을 때 정확히 가운데에 위치하는 값 / 데이터의 개수가 짝수일 경우, 가운데 두 값의 평균을 사용 / 이상치에 덜 민감합니다(robust) 최빈값 (Mode) : 데이터에서 가장 빈번하게 나타나는 값 / 범주형 데이터나 이상형 데이터에 주로 사용되며, 여러 개 존재할 수도 있고 존재하지 않을 수도 있음 산포도 (Dispers..

S.T.A track/python 2025.06.04

Supabase 커서랑 연결하기

Supabase- 관계형 데이터베이스(RDBMS): 테이블(표) 형태로 데이터를 구조화하여 저장하고, SQL(Structured Query Language)을 사용하여 데이터를 조작.- PostgreSQL: 오픈소스 RDBMS의 대표격으로, 트랜잭션 무결성(ACID) 보장, 복잡한 쿼리 지원, 다양한 확장성.- Supabase: PostgreSQL을 기반으로 한 Backend as a Service(BaaS). 데이터베이스 호스팅, 인증, 스토리지, 서버리스 함수 등 백엔드 기능을 쉽게 구축. RDBMS를 사용하는 이유-정형화된 스키마 : 테이블 구조가 고정되어 있어 데이터의 무결성을 보장해 준다-복잡한 쿼리 지원: JSON, 중첩 쿼리 등을 활용해 여러 테이블을 연관 지어 데이터를 검색이 가능하다-신뢰..

S.T.A track/python 2025.05.29

임베딩과 유사도

임베딩(embedding)-대상(텍스트/이미지/음성)을 고정 갈아 숫자 배열로 바꾼 것-같은 의미 모양일수록 가까운 숫자를, 다른 대상일수록 멀리 떨어진 숫자를 만들어 내도록 딥려닝이 스스로 배운 결과 유사도(similarity)-임베딩을 좌표로 봤을 때, 두 점 사이의 거리가 곧 비슷함의 정도 대표 연산지생각 방식특징코사인 유사도두 벡터가 이루는 각도를 본다 → 방향이 같으면 1 (가깝다)텍스트·문서 검색에서 가장 많이 쓰임내적백터 길이까지 고려해 같은 방향 + 더 큰 길이에 점수 up벡터를 정규화한 경우 특히 빠름L2 거리직선 거리 > 값이 작을 수록 유사이미지 특징점 매칭 등에서 자주 사용

S.T.A track/python 2025.05.29

SQL + Docker

가상환경 없는 방법> shift + ctrl + p > 인터프린터 검색해서 설정 변경하기 컨테이너 실행이 안 될 때 다시 실행하기 .ipynb 폴더에 명령어를 실행하여 PostgreSQl 컨테이너 시작 POSTGRE_PASSWORD > 비밀번호-p > 포트 번호postgres > 이미지 이름 docker run --name my-postgres -e POSTGRES_PASSWORD= -p 5432:5432 -d postgres 실행을 하면 도커에 컨테이너가 생긴다 확장 > 설치 컨트롤 쉬프트 p > 상단메뉴 띄우기 > database > 데이터 베이스 표시 플러스 버튼 누르고 > 커넥트 서버 이름정하고 .>postgre 선택 내용을 적고 > 커넥트 누르기 데이터를 넣고 테이블을 만든다

S.T.A track/python 2025.05.29

Pandas

Pandas- Pandas는 Python에서 가장 강력한 데이터 분석 라이브러리- 구조화된 데이터를 효율적으로 처리하고 분석할 수 있는 도구를 제공 Series와 DataFrame Series 생성과 기본 조작- Series는 pandas의 1차원 데이터 구조입니다. 인덱스가 있는 배열이라고 생각하면 됩니다.- 열을 선택한다 df['a']# 다양한 방법으로 Series 생성# 1. 리스트로부터 생성s1 = pd.Series([1, 3, 5, 7, 9])print("기본 Series:")print(s1)# 2. 인덱스를 지정하여 생성s2 = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])print("\n인덱스가 ..

S.T.A track/python 2025.05.28

ARRAY, STRUCT

ARRAY(배열)-프로그래밍 언어에서 지원하는 자료형 중 하나-같은 타입의 여러 값을 하나의 컬럼에 저장할 수 있는 자료형Ex> 1, 3, 5, 6을 각각을 숫자형으로 저장하는 것이 아닌 하나로 저장-Big Query에선 []을 사용하거나 ARRAY로 지정해서 쓸 수 있음-배열로 저장할 때 저장 용량이 효율적 배열 생성하기1)대괄호 사용하기-대괄호[] 사용하기SELECT [0, 1, 1, 2, 3, 5] AS some_numbers UNION ALL SELECT [2, 4, 8, 16, 32] UNION ALL SELECT [5, 10] 2)ARRAY 사용하기 : ARRAY-"가"는 String이라 실행이 불가능하다SELECT ARRAYINT64>[0,1,"가"] AS some_numbersArray..