BERT(7)
-
???:"휴먼, 당신의 말은 이해할 수 없습니다.(진짜모름)", 자연어처리를 위한 BERT 선택의 이유와 근거
1. 상황 2023.07.24 - [산학협력프로젝트] - ??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1) ??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1) 뭐 먹을까요? 깔깔깔 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 1. 오늘의 주제 이번에 진행한 프로젝트는 산학협력 프로젝트입니다! 주제는 '기계 학습을 통한 광고 사 xpmxf4.tistory.com 저번 글에서 말했든 저는 태그 안 자연어들을 통해 NLP 이를 학습시켜 추후 광고 사이트를 알아서 걸러내는 모델을 만드려고 합니다. 즉 현재 제가 원하는 바를 문장으로 정리한다면 다음과 같습니다. HTML 문서 태그 안 자연어들을 보고 광고 사이트인지 판단하는 모델 이 문장은 (머신러..
2023.08.07 -
어디서부터 이게 잘못된 걸까..., 기계 학습 시 데이터셋 양의 중요성
2023.08.03 - [산학협력프로젝트] - BERT 로는 노오력이 부족하다, RoBERTa 로 성능 개선 BERT 로는 노오력이 부족하다, RoBERTa 로 성능 개선 2023.08.01 - [산학협력프로젝트] - "너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기 "너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기 동전에 이어 이번에는 나무...? Random Fo xpmxf4.tistory.com 저번 포스팅을 보시고 오는 것을 추천드립니다!! 저번 글에서 충격적인 것을 발견했었는 데, 바로 오차율이 소수점 맨 아래까지 똑같다는 것입니다... 아무리 제가 머신 러닝 쪽을 처음 해본다고는 하지만, 어쨌든 통계라는 것을 이용해 예측을..
2023.08.03 -
BERT 로는 노오력이 부족하다, RoBERTa 로 성능 개선 시도했는 데 결과물이...?
2023.08.01 - [산학협력프로젝트] - "너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기 "너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기 동전에 이어 이번에는 나무...? Random Forest Model 은 뭘까 2023.06.28 - [산학협력프로젝트] - 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 산학협력 프로젝트, 광고 차단 오토로 xpmxf4.tistory.com 저번 글을 읽고 오시면 좋습니다! 저번 글에서는 BERT, RF, 그리고 이 2가지 모델을 합친 가중평균 모델을 사용해 광고 사이트들인지 분류하는 것까지 해봤습니다 오늘은 BERT 모델을 바탕을 개선, 개량된 버전인 RoBERTa..
2023.08.03 -
"너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기
동전에 이어 이번에는 나무...? Random Forest Model 은 뭘까 2023.06.28 - [산학협력프로젝트] - 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 1. 오늘의 주제 이번에 진 xpmxf4.tistory.com 저번 글을 읽고 오시면 좋습니다! 저난 글들은 주로 제가 이번 프로젝트를 진행하면서 선택한 기술들에 대한 이유와 근거에 대해 설명에 대한 글들이었습니다. 이번 글에서는 제가 사용한 BERT 와 Random Forest Model(이하 RF) 을 실제로 학습(Fine Tuning)시키고, 이를 가지고 실제로 성능 테스트를 해본 결과를 보겠습니다. 그전에 학습이라는 단어가 왜 Fine Tu..
2023.08.01 -
??? : 토크나이저...? 토큰...? 동전...?, 기술 선택의 이유와 근거 (2)
2023.07.24 - [산학협력프로젝트] - ??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1) ??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1) 뭐 먹을까요? 깔깔깔 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 1. 오늘의 주제 이번에 진행한 프로젝트는 산학협력 프로젝트입니다! 주제는 '기계 학습을 통한 광고 사 xpmxf4.tistory.com 저번 글을 읽고 이어 읽으시는 것을 추천드립니다! 저번까지 3 가지에 대해 알아봤습니다. 프로젝트 흐름 구글 트렌드 키워드를 순열 조합한 이유 HTML 문서에서 왜 만 추출했을까 프로젝트가 단순해보이지만 이 단순해 보이는 프로젝트에도 사용되는 기술은 여러 가지이기에 아직 설명해야 할 것들은 많이..
2023.07.27 -
??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1)
뭐 먹을까요? 깔깔깔 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 1. 오늘의 주제 이번에 진행한 프로젝트는 산학협력 프로젝트입니다! 주제는 '기계 학습을 통한 광고 사이트 자동 차단 프로그램' 입니다. 이미 광고 사이트 차단해주는 프로그램 있지 않아요? Ad xpmxf4.tistory.com 저번 글에 이어서 이번에는 전반적인 흐름과 전체적인 흐름에서 제가 선택한 기술들에 대한 이유와 근거에 대해 설명해보겠습니다! 1. 전반적인 흐름 저번 글에서 보여드렸던 프로젝트의 전반적인 흐름도 입니다. 위 과정을 조금 단순하게 나누면은 다음과 같아집니다. Google Trend 로 최근 키워드 확보 키워드들을 순열 조합, 검색을 실시해 URL 확보 URL 들에 쿼리를 보내 HTML 에서 태..
2023.07.24 -
산학협력 프로젝트, 광고 차단 오토로 돌리기
1. 오늘의 주제 이번에 진행한 프로젝트는 산학협력 프로젝트입니다! 주제는 '기계 학습을 통한 광고 사이트 자동 차단 프로그램' 입니다. 이미 광고 사이트 차단해주는 프로그램 있지 않아요? AdGuard 라던지... 맞습니다! 사실 저도 이미 잘 사용하고 있는 프로그램이죠. 프로젝트를 하기 전, Project ISL 을 진행하며 구글링을 하다 보니 어쩌다 광고 사이트를 방문하게 되었습니다! AdGuard 이 켜져있었음에도 불구하고! AdGuard 가 켜져있었음에도 막아지지 않는 광고사이트... AdGuard 는 분명 훌륭한 프로그램이 틀림 없습니다. 크롬 익스텐션 스토어에서 저 숫자의 사용자와 최고의 평점을 지닌 익스텐션은 전체 비율로 따져본다면 결코 많지 않죠. 하지만 이러한 AdGuard 가 막지 ..
2023.06.28