查學校
看排名
選專業(yè)
找案例
逛熱點
做科研
約老師
下載App
關于我們
免費領選校方案
英國留學選校查詢
登錄
GPA 81,我選擇“大數據分析+機器學習”項目提升背景!
關注已取消
關注成功
已添加至{{ selectCollectNames.join(',') }}
更改
{{ !collectStatus ? '+' : '' }}
{{!collectStatus ? '關注' : '已關注'}}
在線咨詢
GPA 81,我選擇“大數據分析+機器學習”項目提升背景!
收藏已取消
收藏成功
已添加至{{ selectCollectNames.join(',') }}
更改
{{!collectStatus ? '收藏' : '已收藏'}}
指南者留學 Journey
2022年10月24日
閱讀量:2026
收錄于合集
#背景提升
<p style="text-align: justify;"><img style="width: 808px; height: 61px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/sucai/content/1666599255621/1666599255621.png" width="808" height="61" /></p> <p style="text-align: justify;"><strong>學員背景</strong><br />W同學<br /><strong>本科背景</strong><br />南京理工大學 通信工程<br />GPA 81.2<br /><strong>背提項目</strong><br />指南者留學機器學習項目實戰(zhàn)<br />匯豐銀行外幣理財用戶購買意愿預測</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;"><span class="h1">01 契機背景</span></p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">我是一名大四的本科生,在大三升大四的暑假參加了指南者留學的機器學習背景提升項目,主要內容是匯豐銀行外幣理財用戶購買意愿預測。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;"><strong>首先,我想談一談為什么選擇指南者的背景提升項目。</strong></p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">在大學前三年的學習中,作為電子信息類專業(yè)的學生,除了需要接觸大量的與電子學科相關理論,編程能力也是很重要的一部分,誰能夠將器件的理論知識與編程代碼相結合,誰就能在短時間內實現(xiàn)器件功能的設計,并且相較于一些傳統(tǒng)的電子設計軟件,通過編程設計出來的器件能夠更好的實現(xiàn)功能的多樣性和創(chuàng)新性。譬如在一個傳統(tǒng)芯片的設計中,可能添加一個功能就需要在版圖上進行全部芯線的重新連接和繪制,但在數字化的芯片設計中只需要添加或修改其中的一部分代碼。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">其次,是為了個人能力的進一步提升。在本科的學習過程中,我從未接觸過python這類語言,也未參與過機器學習相關的課程,但python無疑是當下最熱門的計算機語言之一,“大數據分析+機器學習”的模式也無疑是當下最熱門的項目之一。<strong>我希望能通過我的個人能力,對某類數據集實現(xiàn)從無到有、從復雜到簡單的分析過程,能夠從單一的數字中挖掘出有用的信息。</strong>這對我來說是一個全新的項目和挑戰(zhàn),而指南者的背提項目恰好給予了我這一機會。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">最后一條是為了<strong>彌補自己在留學申請時科研項目上的空缺</strong>。在大學階段我雖然完成了不少實驗和課程設計,但所接觸的科研經歷總體較少,而在院校申請時科研項目經歷又是很被看重的一方面,因此這一機會成為了我背景提升的“救命稻草”。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;"><span class="h1">02 項目過程及收獲</span></p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">主要的項目過程是首先通過老師的課程學習相關的基礎知識,譬如科研項目的一般流程、機器學習的項目簡介、Numpy庫、Matplotlib庫、Pandas庫、數據清洗的一般方法、回歸模型、分類模型、評價指標等。每一次課程都會對應著相關的作業(yè)(主要是對老師給的題目進行編程并寫一份簡單的報告),之后老師會集中幾次作業(yè)的情況對我的作業(yè)進行單獨講解,這個過程大約持續(xù)了3~4周。這些作業(yè)內容幫助我很好地理解了課程的相關內容,并進一步加深了對python編程的理解。</p> <p style="text-align: justify;"><img style="width: 501px; height: 708px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phppPkePE.jpg" width="501" height="708" /></p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">完成了上述課程的學習之后就進入了具體的項目實戰(zhàn)。我的項目內容主要是結合匯豐銀行以往的用戶購買外匯理財產品的數據以及用戶本身的信息(如住房情況、信貸狀況、家庭背景、工作信息等)來進行有效特征的篩選,也就是從其中挑選出對購買理財產品影響因子較大的因素放入最終的模型,而無關的因素則可以刪去,并且通過用戶自身信息與過往金融行為來搭建購買意愿預測系統(tǒng),提高最終預測模型的效率。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">首先需要在數據預處理中進行了缺失值填補、獨熱編碼等步驟,并進行了樸素的過采樣處理保證數據集的平衡性。在數據處理的第一步我就碰到了問題,但我的指導老師梅老師一直對我的每次問題進行了詳細的解答,為我省去了很多不必要的麻煩。<br /><img style="width: 705px; height: 564px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_php0YtJy9.jpg" width="705" height="564" /><img style="width: 711px; height: 358px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpiWsblT.jpg" width="711" height="358" /></p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">在進行模型搭建之前先對數據進行一定的清洗,畢竟在以后面對實際的數據集時,不可能得到一個完完整整的數據庫,因此數據清洗是必要的,以某數據集為例統(tǒng)計可得到該數據集共有19439行損失,64列損失。查看每列數據的缺失值比例,其中部分結果如下:</p> <p style="text-align: justify;"><img style="width: 770px; height: 259px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpce4a2H.jpg" width="770" height="259" /></p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">從中可以看出,該數據集中有大量的缺失值,出于下一步模型的需要因此不能進行簡單的刪除,對此我使用Imputer進行了缺失值填補等數據預處理步驟。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">同時,在該數據集中有幾個特征是無序的分類特征。為了處理這一問題,我進行了獨熱編碼等步驟,即為每一個無序分類特征的每一個可能的類別創(chuàng)建一個“虛擬”變量。經過以上處理之后數據集就顯得有序了許多,于是就開始進行下面的步驟。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">在特征抽取步驟中,我使用了GBDT和PCA的方法進行,兩種方法各有優(yōu)點和缺點,我都進行了嘗試并對相應的結果進行了對比。在本項目中的PCA降維中,可以繪制出n_components與cum_explained_variance_ratio對應的圖像曲線如下,最終選擇n=20作為新生成的特征個數。<br /><img style="width: 663px; height: 403px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phphUBVKS.jpg" width="663" height="403" /></p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">最終結合了測試集上的指標以及模型的運算量大小等綜合因素,本項目采用PCA的特征抽取方法。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">在特征過濾中主要選擇了方差選擇法、遞歸特征消除法和基于懲罰項的特征選擇法,并對原理和結果進行了說明。最后利用不同的機器學習算法分別進行交叉驗證和網格搜索確定模型的參數(如:n_estimators、max_depth等)并對該數據集進行預測,例如隨機森林、邏輯回歸、stacking集成等,最后通過AUC和ROC等評價指標的對比分析確定最佳模型,即隨機森林模型可以對銀行外幣理財用戶購買意愿起到比較好的預測效果。該系統(tǒng)還可以通過數據來對用戶的購買意愿進行判斷,并且提供意愿排名,來更為精準的找到意愿強烈的客戶提高產品的購買率。</p> <p style="text-align: justify;"><img style="width: 808px; height: 1143px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpfWE8NC.jpg" width="808" height="1143" /><img style="width: 808px; height: 1142px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpjnjsFK.jpg" width="808" height="1142" /><img style="width: 808px; height: 1142px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/info_imgUrl_phpGloUsz.jpg" width="808" height="1142" /></p> <p style="text-align: center;"><span class="h6">(我的最終報告部分展示)</span></p> <p style="text-align: center;"> </p> <p style="text-align: justify;"><span class="h1">03 收獲與感悟</span></p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">最后我還想談一談我在這一過程中的收獲。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">首先是指南者的背景提升項目讓我更加<strong>清楚了自身的興趣和學習的意義</strong>,書本上的理論知識雖然是枯燥的但也是必備的,如何將這些理論知識運用到實踐中去并取得真正有意義的成果才是最重要的,而成果是否有意義的重要衡量標準之一就是是否能解決實際問題,本次的背提項目讓我看到了知識與實踐融合的魅力。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">第二是<strong>讓我在留學申請中提升了自己的競爭力</strong>,對于科研小白的我來說,這無疑是我的申請簡歷中濃墨重彩的一筆,該項目不僅是對我個人能力的證明,也能夠幫助申請院校的老師們進一步了解我。</p> <p style="text-align: justify;"> </p> <p style="text-align: justify;">第三是<strong>提高了我對新事物的接受能力</strong>,從接觸一門全新的編程語言到能夠最終完成該項目,這對我來說是一次挑戰(zhàn)也是一次飛躍,這讓我對接下來的學習生活更有自信。</p> <p style="text-align: justify;"><img style="width: 808px; height: 188px; margin-left: auto; margin-right: auto; float: none;" src="https://info.compassedu.hk/sucai/content/1666599264914/1666599264914.png" width="808" height="188" /></p>
猜你喜歡
壓績點是壞文明
1854
死磕雅思沒用,有人不是那塊料
1755
海外名校1v1科研:基于深度學習的中國租房通脹預測|收獲一作論文與導師推薦信!
21921
背景提升學員|喜報!新國立、南洋理工、港大、港城、悉尼大學、曼大、華威、伊利諾伊香檳分校offer來了!
21936
對機器學習感興趣?不如先來實踐一下!|《特斯拉車輛故障自動檢測系統(tǒng)》
21867
曼大范教授1v1科研:溫和條件下CO2催化制甲醇:新型催化劑的研發(fā)|收獲一作論文與導師推薦信!
21616
預約咨詢
預約咨詢
七日熱點資訊
留學生考公政策解讀,揭秘考公熱門專業(yè)
騰訊、華為:我們?yōu)榱魧W生專門設置了這些崗位!國內頭部大廠狂撒6萬崗位!
港大被踢出亞洲前五!清華登頂Top 1,新國立屈居第三?2025年大學排名發(fā)布!
【日報】4.25日港大、港城申請時間更新,港科廣紅鳥碩士項目提前批開啟...
國企offer被取消!入學即秋招、找不到工作可延畢、211學長在NTU體驗感拉滿
985學長扔掉3萬留位費,放棄國企鐵飯碗和UCL,我選擇去NTU!
公眾號
掃一掃立即關注
微信咨詢
掃一掃立即咨詢
App下載
下載指南者留學App
在線客服
電話咨詢
400-183-1832
回到頂部
預約咨詢
登錄
二維碼已過期
重新獲取
已掃碼
等待確認登錄
請使用微信掃描二維碼登錄
現(xiàn)在來設置你的賬號吧
只需要花不到一分鐘,之后便可以獲得更精準的推薦~
1
留學意向
2
基本意向
3
詳細背景
4
了解途徑
1.1 您期望申請學歷是
1.2 您期待的留學地區(qū)是
多選
*
0
/20
沒有查詢到相關的地區(qū)
查詢中...
已選(
0
/5):
2.1 您的身份狀態(tài)是
2.2 您的目前學歷是
3.1 您的本科學校是
大陸本科
海外本科
3.2 您的學校名稱是
沒有查詢到相關的學校
查詢中...
3.3 您的專業(yè)名稱是
沒有查詢到相關的專業(yè)
查詢中...
4. 您從哪里了解到指南者留學網站的
*
0/20
取消
上一步
下一步
復制
復制
您的會員等級不足,查看等級詳情
立即前往
選擇收藏夾
新增收藏夾
{{option.remark_name}}
默認
{{option.info_count}}條內容
取消
完成
新增收藏夾
設為默認收藏夾
返回
{{ form.id ? '完成編輯' : '確定創(chuàng)建' }}
是否放棄編輯內容?
取消
確定