[19일차] ABC 부트캠프 / sklearn의 datasets 모듈 예제
19일차 학습에 들어가기 전에 간단한 복습을 하였다. 머신러닝을 하기 위해서는 정답 데이터를 알고 있어야 한다.가중치의 오차를 최소화 하기 위해 미분값이 0이 될때까지 반복하여 손실을 낮춰야 한다.숫자로 된 선형 데이터가 학습하기에 적합하다.위 세가지 정보를 명심하고 오늘 학습으로 넘어가고자 한다.    sklearn의 datasets 모듈의 Iris 데이터 활용  18일차에도 Iris 데이터셋을 활용한 예제를 다뤘었다. 오늘은 똑같은 데이터셋을 KNN 분류기가 아닌 선형 회귀 모델을 학습시켜 실습해보고자 한다. # 라이브러리 호출from sklearn.linear_model import LinearRegressionfrom sklearn.datasets import load_irisimport nump..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 21. / 않새준
[18일차] ABC 부트캠프 / Numpy 기초 및 머신러닝
오늘은 코드를 직접 실행해보며 Numpy 기초를 알아보았다. 개발 IDE는 기존에 쓰던 VSCode가 아닌 PyCharm을 다운받아 사용하였다. https://www.jetbrains.com/ko-kr/pycharm/download/?section=mac PyCharm 다운로드: 데이터 과학 및 웹 개발을 위해 JetBrains가 만든 Python IDE www.jetbrains.com IDE를 다운받았으면 파이썬 버전 설정과 같은 환경설정을 맞춰주고, 사용하는 라이브러리들을 다운로드 받아야 한다.    변수 선언 파이썬에서 변수를 생성하는 방법은 1주차때도 배웠었다. 그러나 4주차인 지금 다시 언급하는 이유는 파이썬에서 변수를 선언할 때 자료형을 명시할 수 있는 방법이 있기 때문이다. # 기존 방식ex..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 21. / 않새준
[17일차] ABC 부트캠프 / 빅데이터 분석 및 기초 통계, 딥러닝 기초
오늘은 새로운 교수님과 새로운 주제를 배우는 첫번째 날이다. 이번 학습내용은 인공지능이고 첫날이니 만큼 이론 수업을 진행하였다. 기계학습은 컴퓨터 공학과에서도 커리큘럼 상 4학년 때 배우는 과목이므로 난이도가 상당히 높을 것 같다. 이번 기회에 차근차근 공부하며 해당 과목의 기초를 다져보고자 한다.    1. 프로그래밍 언어에 대해  1 - 1. 파이썬은 인터프리터(interpreter) 언어이다.  인터프리터는 실행 시 마다 코드를 한줄씩 기계어로 번역하는 방식이기에 다른 컴파일 언어보다 느린 속도를 가지고 있다. 그렇기에 실무에서는 많이 사용하지 않는다고 한다.   1 - 2. 머신러닝의 목표는 파라미터를 뽑는 것이다. 파라미터를 뽑기위해서는 실행속도가 느린 파이썬보단 주로 C언어에서 변환하여 사용한..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 21. / 않새준
[16일차] ABC 부트캠프 / 데이터 수집 및 시각화 팀 프로젝트
오늘은 2주간 배웠던 데이터 수집 및 시각화를 활용하여 팀 프로젝트를 진행하였다. 많은 회의 끝에 우리 팀의 주제는 KBO 최상위 관중수 팀과 최하위 관중수 팀을 분석하여 최하위 팀의 관중수가 낮은 이유를 분석하고자 하였다. 분석 데이터를 수집하기 위해 KBO 공식 홈페이지에서 제공하는 데이터들을 사용하였다.https://www.koreabaseball.com/Record/Crowd/History.aspx KBO 홈페이지KBO, 한국야구위원회, 프로야구, KBO 리그, 퓨처스리그, 프로야구순위, 프로야구 일정www.koreabaseball.com 조 안에서 데이터 크롤링 및 전처리 과정과 시각화 과정 두 파트로 나누어 분담했고, 나는 크롤링 및 전처리 과정에 참여하였다.   데이터 CSV 파일  KBO ..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 17. / 않새준
[15일차] ABC 부트캠프 / 건양대학교 견학
오늘은 건양대학교에 견학이 있는 날이다. 견학내용은 오전은 가상 병원 체험을 하고 오후에는 특강을 들을 예정이다. 9시 50분까지 건양대학교 죽헌정보관에서 모여 우리 조는 가상 병원 체험을 먼저 하게 되었다.  첫번째로 의대생들이 국가고시를 준비하기 위해 사용하는 연습실을 둘러보았다. 연습실에는 정말 병원같은 모습으로 구성되어 있었으며, 실제로 안에서는 안보이지만 밖에서는 볼 수 있는 거울이 설치되어 있어, 밖에서 평과관들이 의대생들의 모습을 직접 볼 수 있다고 한다. 위 공간의 사진을 찍고 싶었는데 깜빡하고 못찍었다. 이후 아랫층에 있는 응급처치를 연습할 수 있는 공간으로 이동했다.   심폐소생술을 연습하기 위한 마네킹인데 가격이 무려 최소 5천만원부터 시작한다고 한다. 왜 그렇게 비싼가 했더니 실습 ..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 14. / 않새준
[14일차] ABC 부트캠프 / 셀리니움을 활용한 이미지 수집하기
오늘의 크롤링 주제는 이미지 수집이다.수집하기 위한 사이트는 아래와 같다. https://www.google.co.kr/imghp?hl=ko Google 이미지 www.google.co.kr 구글 이미지에서 키워드를 입력하면 키워드에 맞는 사진들을 볼 수 있다. 우리는 오늘 검색한 사진들을 다운로드 받기 위한 코드를 작성해볼 것이다.    라이브러리 호출 마찬가지로 수집하기 위한 라이브러리를 호출한다. # 1. 필요 모듈 임포트from selenium import webdriverfrom webdriver_manager.chrome import ChromeDriverManagerfrom selenium.webdriver.chrome.service import Service as ChromeServicef..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 14. / 않새준
[13일차] ABC 부트캠프 / 음악 정보 수집 및 시각화
12일차에는 동적 크롤링을 사용하여 스크롤을 가장 끝까지 내리고 댓글을 수집했다. 사이트에서는 다양한 정보를 얻기 위해서는 단순하게 스크롤을 내리는 것 뿐만 아니라 다른 주소로 이동하거나, 클릭을 하는 등 다양한 동작을 통해 정보를 수집할 수 있다. 오늘은 동적 크롤링을 사용하여 멜론 사이트의 시대별 TOP30 노래에 대한 정보를 수집해 보자.    멜론 시대별 차트 TOP30 정보 수집하기 과정 멜론에서는 년도별로 차트 TOP30 정보를 공개한다.https://www.melon.com/chart/age/index.htm?chartType=YE&chartGenre=KPOP&chartDate=2020 Melon음악이 필요한 순간, 멜론www.melon.com 오늘은 위 사이트에서도 2020년도 차트 TOP..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 14. / 않새준
[12일차] ABC 부트캠프 / konlpy 라이버리 및 동적 크롤링(유튜브 댓글 수집하기)
konlpy 라이브러리 11일차에 워드 클라우드로 시각화하기 위해 데이터를 텍스트(데이터 뭉치) 형태로 변환하였다. 위 방식으로 텍스트를 변환하면 공백을 기준으로 나누기 때문에 단어가 아닌 글자수로 텍스트가 쪼개지는 상황이 발생한다. 그렇기에 konlpy 라이브러리를 사용하여 자연어 처리를 통해 단어를 처리해야 할 필요가 있다. 자연어를 처리하기 위한 형태소 분석기는 3가지가 존재하는데 종류는 이러하다.1. Kkma   2. Komoran  3. okt 1번과 2번은 신문과 뉴스같이 맞춤법이 정확하게 지켜지는 매체를 대상으로 사용한다. 3번은 맞춤법이 주로 자주 틀리는 SNS에서 사용되는 분석이이다. 그중에서도 Komoran을 사용해서 형태소를 분석하는 방법을 알아보자. # 명사 단어 추출# konlpy..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 10. / 않새준
[11일차] ABC 부트캠프 / 정적 크롤링(네이버 기사 수집 및 크롤링)
오늘은 웹 크롤링을 활용하여 네이버 기사 수집 및 크롤링을 할 것이다. 크롤링은 웹 사이트에서 정보를 긁어올 수 있는 기능을 말한다. 해당 기능을 활용하여 네이버 기사를 수집하며 크롤링 기능을 실습해보자.https://news.naver.com/main/ranking/popularDay.naver 네이버 뉴스정치, 경제, 사회, 생활/문화, 세계, IT/과학 등 언론사별, 분야별 뉴스 기사 제공news.naver.com   라이브러리 다운로드 !pip install konlpy!pip install koreanize-matplotlib konlpy 라이브러리는 한국어 정보처리를 위해 사용하는 라이브러리이다. koreanize-matplotlib 라이브러리도 시각화 과정에서 한글 깨짐을 방지하기 위해서 사..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 8. / 않새준
[10일차] ABC 부트캠프 / ESG Day(배리어프리와 사회적 약자를 위한 따뜻한 기술)
오늘은 ESG Day라 하여 ESG 기업 경영을 추구하는 기업의 대표님들의 강연을 들을 수 있는 날이다. 오늘의 강연 장소는 IBS 기초과학연구원 과학문화센터에서 실시했다.https://map.naver.com/p/entry/place/21052209?lng=127.3850962&lat=36.3769430&placePath=%2F&entry=pll&searchType=place&c=15.00,0,0,0,dh 네이버 지도공간을 검색합니다. 생활을 연결합니다. 장소, 버스, 지하철, 도로 등 모든 공간의 정보를 하나의 검색으로 연결한 새로운 지도를 만나보세요.map.naver.com    강의 시작 전  먼저 강연의 주제인 배리어프리란 사회적, 물리적, 심리적 장애물을 제거하여 모든 사람들이 자유롭게 접근하..
Python/데이터분석(ABC 부트캠프) / 2024. 7. 7. / 않새준