課程介紹:
Python是數(shù)據(jù)分析最常用的語言之一,中文自然語言處理(簡稱NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。NLP是一門融語言學、機器學習、統(tǒng)計學、大數(shù)據(jù)以及人工智能等于一體的科學。本課程偏重實戰(zhàn),不僅系統(tǒng)介紹了NLP涉及的知識點,同時也教會大家如何實際應用與開發(fā)。
本次培訓主要介紹NLP所需要了解的Python科學包、正則表達式以及檢索技術的知識。包括NLP相關的各個知識點:詞法分析技術、句法分析技術、常用的向量化方法,介紹機器學習的一些基本概念,重點突出NLP常用的分類算法、聚類算法,同時還分享了幾個案例。每個部分都有對應源數(shù)據(jù)和完整代碼,供實戰(zhàn)使用。
自然語言處理(NLP)屬于人工智能與計算機語言學的交叉領域,處理的是計算機與人類語言之間的交互問題。隨著人機交互需求的日益增長,計算機具備處理當前主要自然語言的能力已經(jīng)成為了一個必然趨勢。
本培訓適合通信、金融、保險、制造、醫(yī)藥、教育科研、市場調(diào)研、連鎖零售和電子商務等行業(yè)的數(shù)據(jù)分析人員,通過本課程的學習,將對NLP與數(shù)據(jù)科學領域中的概念有一個充分的了解,并能將這些知識應用到日常工作中。
課程模塊
課程主題1.NLP歷史現(xiàn)在及為什么需要學習NLP技術
2.NLP實現(xiàn)機器學習,聊天機器人,情感分析和語義搜索
模塊二NLP與PYTHON編程3.Python環(huán)境搭建及開發(fā)工具安裝
4.NLP常用PYTHON開發(fā)包的介紹
5.Jieba安裝、介紹及使用
6.StanfordNLP在Python環(huán)境中安裝、介紹及使用
7.Hanlp在Python環(huán)境中安裝、介紹及使用
模塊三快速掌握NLP技術之分詞、詞性標注和關鍵字提取
08.分詞、詞性標注及命名實體識別介紹及應用
09.準確分詞之加載自定義字典分詞
10.準確分詞之動態(tài)調(diào)整詞頻和字典
11.詞性標注代碼實現(xiàn)及信息提取
12.人名、地名、機構名等關鍵命名實體識別
13.TextRank算法原理介紹
14.基于TextRank關鍵詞提取
模塊四句法與文法16.依存句法與語義依存分析
17.依存句法樹解析(子樹遍歷,遞歸搜索,葉子節(jié)點提取等)
18.名詞短語塊挖掘
19.自定義語法與CFG
模塊五20.N-GRAM算法介紹
21.N-GRAM生成詞語對
22.TF-IDF算法介紹應用
23.基于TF-IDF挖掘符合語言規(guī)范的N-GRAM
模塊六表示學習與關系嵌入
24.語言模型
25.詞向量
26.深入理解Word2vec算法層次sofmax
27.深入理解Word2vec算法負采樣
28.6.4基于Word2vec技術的詞向量、字向量訓練
模塊七深度學習之卷積神經(jīng)網(wǎng)絡
29.BP神經(jīng)網(wǎng)絡
30.徹底理解深度學習指卷積神經(jīng)網(wǎng)絡
31.CNN文本分類
32.CNN文本分類算法模塊
33.CNN文本分類模型詳解數(shù)據(jù)預處理
34.CNN文本分類模型測試與部署
模塊八深度學習之遞歸神經(jīng)網(wǎng)絡35.遞歸網(wǎng)絡
36.LSTM
37.LSTM文本分類原理
38.LSTM文本分類代碼架構
39.LSTM文本分類代碼詳解
40.LSTM文本分類模型預測與部署
模塊九特定領域命名實體識別NER技術
41.基于深度學習醫(yī)藥保險命名實體識別課題背景介紹
42.醫(yī)藥保險命名實體和實體關系體系建立和命名實體分類規(guī)范
43.醫(yī)藥保險命名實體識別相關前沿技術和難點
44.基于深度學習醫(yī)藥保險命名實體識別的算法模塊設計
45.數(shù)據(jù)的采集,清洗,數(shù)據(jù)機器自動標注及轉(zhuǎn)化為深度學習格式
46.模型本地Lib庫封裝
47.部署tensorflow訓練好的模型為云服務
48.算法設計及代碼實現(xiàn)
49.代碼調(diào)試,參數(shù)優(yōu)化及深度剖析(深入理解)
1.系統(tǒng)架構師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員。