課程源起:
文字資料探勘(Text Mining)是從非結構化的文字中,萃取出有用的重要資訊或知識。它是一個相對年輕的學科,涉及資訊擷取(Information Retrieval)、資料探勘(Data Mining)、機器學習(Machine Learning)、統計學(Statistics)與電腦語言學(Computer Linguistics)等領域,也可以說是自然語言處理(Natural Language Processing)的應用。一般說來,自然語言處理的階段涵蓋:文件語料庫(Corpus)的建構、文件記號化(Tokenization)、語法分析(Lexical Analysis)、語意分析(Semantic Analysis)與相關概念的提取(Concept Extraction)等。傳統媒體與網路新媒體中大部分的資訊都是以文字儲存,因此,文字探勘技術被認為是有高度的潛在商業價值。
「Python文本數據探勘實作」課程採用Python語言實作文本數據擷取、前處理、集群、分類與深度學習案例,課程內容著重自然語言處理的統計分析基礎,以及資料探勘/機器學習方法的運用,以整合式開發環境Spyder與Jupyter Notebook進行實機操作,幫助學員掌握開放源碼的科學計算與資料分析語言,有效完成企業文本數據的處理與分析工作,提昇個人與企業競爭優勢。
課程目標:
協助學員採用Python語言做為文本數據探勘工具,提升學員運用統計與機器學習手法於企業文本數據處理與分析的實作應用能力。
課程特色:
本課程以流程為導向,貫穿文本數據來源、文本數據前處理與文本數據解析等三大步驟,結合各式解說與實際案例,協助學員掌握必備的文本數據處理與分析技術。全程採用Python語言,引導學員理解文件語料庫的建立、語法分析等自然語言前處理任務,進而對文件與字詞進行各式探勘工作,期能克服文本數據加值的艱鉅挑戰。
課程時間及優惠:
課程天數:2天;上午9:30至下午4:30(中午休息1小時)
原價10,800元整 (含上課講義、16小時研習證明與午餐)
早鳥(10月31日前)/舊生:6,000元/人
二人以上團體:5,500元/人
三人以上團體:5,000元/人
講師介紹:
AsiaAnalytics專業講師:鄒慶士 教授
臺灣工業技術學院(TAIWAN TECH) IE/OR博士(1990~1994),曾任教於新竹市中華大學企業管理學系所副教授(1996~2001),世新大學資訊管理學系所副教授(2001~2004),兼任中原、空中、實踐、東吳、中央等大學講師/副教授/教授(1991~),著有「大數據分析與應用實戰:統計機器學習之資料導向程式設計(東華書局總經銷)。」
專長領域為大數據與資料探勘、機器學習、多目標最佳化、進化式計算、賽局模型、等候網路與企業電子化等。現任臺北商業大學資訊與決策科學研究所教授暨資料科學應用研究中心主任。
課程大綱:
課程主題 | 詳細內容 |
文本數據來源 (3 hours) | 網頁文本數據擷取流程 |
HTML/XML樹狀結構簡介 | |
XPath語法與正則表示式演練案例 | |
文本數據前處理 (3 hours) | 文本數據準備與文件記號化 |
文件詞項矩陣與文本數據正規化 | |
文本數據相似度計算 | |
文本數據解析建模 (6 hours) | 文本數據迴歸案例 (Oreilly Text Regression Case) |
文本數據分類案例(Spam Filtering Case) | |
潛在主題分析案例(UK Gov Case) | |
人工神經網路建模(Movie Reviews Sentiment Analysis and Newswire Cases) | |
深度學習建模(Recurrent NN and 1D Convolutional NN) |
近期熱門活動...
|