광고차단 머신러닝(10)
-
옵티마이저 아무거나 선택하면 안되는 이유, Adam vs AdamW
???:"휴먼, 당신의 말은 이해할 수 없습니다.(진짜모름)", 자연어처리를 위한 BERT 선택의 이유와 근 1. 상황 2023.07.24 - [산학협력프로젝트] - ??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1) ??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1) 뭐 먹을까요? 깔깔깔 산학협력 프로젝트, 광고 xpmxf4.tistory.com 위 글에서 저는 다음가 같은 코드를 보여드렸습니다. model = BertForSequenceClassification.from_pretrained('bert-base-multilingual-cased', num_labels=2) model = model.to(device) optimizer = AdamW(model.pa..
2023.08.21 -
어째서 광고 차단 프로그램의 규칙은 공개되어 있을까?
이번 광고 차단의 기능을 수행하는 기계학습 모델 만들기 프로젝트를 진행하게 된 이유는 다음과 같습니다. 광고 차단 규칙이 명시가 되어 있어 악성 광고사이트 제작자들은 이 규칙들을 보며 매번 새롭게 광고 사이트들을 만들어내고, AdGuard는 계속해서 필터링 규칙들을 업데이트해나가야 하는 구조이다. 따라서 자동으로 규칙을 업데이트 하지 않아도 알아서 잡아내도록 기계학습을 활용해보자! 프로젝트를 진행하며 광고 차단을 하는 기계학습 모델을 Fine-Tuning 했지만 진행하면서 이런 생각이 들었습니다. 그냥 애초에 필터를 공개 안 하면 이런 고생을 안 해도 되지 않을까? 아무래도 EasyList 같은 필터를 공개하지 않는 다면 악성 광고 사이트 제작자들이 규칙을 제대로 파악할 수 없어 악성 광고 사이트의 발전..
2023.08.09 -
???:"휴먼, 당신의 말은 이해할 수 없습니다.(진짜모름)", 자연어처리를 위한 BERT 선택의 이유와 근거
1. 상황 2023.07.24 - [산학협력프로젝트] - ??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1) ??? : "하... 뭐 고르지?", 기술 선택의 이유와 근거 (1) 뭐 먹을까요? 깔깔깔 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 1. 오늘의 주제 이번에 진행한 프로젝트는 산학협력 프로젝트입니다! 주제는 '기계 학습을 통한 광고 사 xpmxf4.tistory.com 저번 글에서 말했든 저는 태그 안 자연어들을 통해 NLP 이를 학습시켜 추후 광고 사이트를 알아서 걸러내는 모델을 만드려고 합니다. 즉 현재 제가 원하는 바를 문장으로 정리한다면 다음과 같습니다. HTML 문서 태그 안 자연어들을 보고 광고 사이트인지 판단하는 모델 이 문장은 (머신러..
2023.08.07 -
어디서부터 이게 잘못된 걸까..., 기계 학습 시 데이터셋 양의 중요성
2023.08.03 - [산학협력프로젝트] - BERT 로는 노오력이 부족하다, RoBERTa 로 성능 개선 BERT 로는 노오력이 부족하다, RoBERTa 로 성능 개선 2023.08.01 - [산학협력프로젝트] - "너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기 "너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기 동전에 이어 이번에는 나무...? Random Fo xpmxf4.tistory.com 저번 포스팅을 보시고 오는 것을 추천드립니다!! 저번 글에서 충격적인 것을 발견했었는 데, 바로 오차율이 소수점 맨 아래까지 똑같다는 것입니다... 아무리 제가 머신 러닝 쪽을 처음 해본다고는 하지만, 어쨌든 통계라는 것을 이용해 예측을..
2023.08.03 -
BERT 로는 노오력이 부족하다, RoBERTa 로 성능 개선 시도했는 데 결과물이...?
2023.08.01 - [산학협력프로젝트] - "너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기 "너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기 동전에 이어 이번에는 나무...? Random Forest Model 은 뭘까 2023.06.28 - [산학협력프로젝트] - 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 산학협력 프로젝트, 광고 차단 오토로 xpmxf4.tistory.com 저번 글을 읽고 오시면 좋습니다! 저번 글에서는 BERT, RF, 그리고 이 2가지 모델을 합친 가중평균 모델을 사용해 광고 사이트들인지 분류하는 것까지 해봤습니다 오늘은 BERT 모델을 바탕을 개선, 개량된 버전인 RoBERTa..
2023.08.03 -
"너가 만든 거 유효하긴 해?", BERT, Random Forest 성능테스트 하기
동전에 이어 이번에는 나무...? Random Forest Model 은 뭘까 2023.06.28 - [산학협력프로젝트] - 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 산학협력 프로젝트, 광고 차단 오토로 돌리기 (졸업 하고 싶어요ㅠ) 1. 오늘의 주제 이번에 진 xpmxf4.tistory.com 저번 글을 읽고 오시면 좋습니다! 저난 글들은 주로 제가 이번 프로젝트를 진행하면서 선택한 기술들에 대한 이유와 근거에 대해 설명에 대한 글들이었습니다. 이번 글에서는 제가 사용한 BERT 와 Random Forest Model(이하 RF) 을 실제로 학습(Fine Tuning)시키고, 이를 가지고 실제로 성능 테스트를 해본 결과를 보겠습니다. 그전에 학습이라는 단어가 왜 Fine Tu..
2023.08.01