資源 | |||||
上課工具 | 線上黑板( Online blackboard) | 廣播教學 | 上課錄影影片 | Goole輸入法(Input:exe) | |
上課參考教材 | 書籍:圖解資料庫系統理論:使用SQL Server實作 | 書籍:挖掘數據真相,征服大數據時代的第一本書,Practical SQL | |||
mySQL 8.0資料庫(*.sql) | firstdb.sql初學資料庫 | company.sql訂單關聯資料庫 | company2.sql企業內部資料庫 | imdb.sql電影、電視、遊戲和娛樂界人士資料庫 | |
如何解決這些資料庫無法匯入workbench
資料庫無法順利安裝到workbench的同學,2個方法解決: |
|||||
mySQL 8.0資料庫(*.sql) | sakila.sql出租電影DVD店資料庫 | world.sql各國城市資料庫 | nba.sql | students.sql新生入學資料庫 | |
mySQL 8.0資料庫(*.sql) | covid19.sql新冠資料庫 | 下員工資料庫employees_mod.sql | |||
excel檔案 | 問卷調查檔案 | 電子銷售 | employee | 學生成績 | |
csv檔案 | 小費tips-chinese | 小費tips-english | 學生成績-chinese | 學生成績-english | |
csv檔案 | 員工 | ||||
圖書資料-chinese | 新生入學資料庫 | 飲料店 | 經管1A | ||
學校所屬地區 | 問卷調查 | 鐵達尼號 | 運動器材 | ||
SQL語法手冊(中文) | fooish教學(有MySQL,MSSQL,Oracle) | 1keydata教學網 | gitbook SQL教學網 | w3school教學網 | |
比較MySQL,MSSQL,Oracle | 比較MySQL,MSSQL,Oracle-1 | 比較MySQL,MSSQL,Oracle-2 | 比較MySQL,MSSQL,Oracle-3 | 比較MySQL,MSSQL,Oracle-4 | |
SQL語法線上練習網站 | sqlzoo SQL語法,交互練習學習網站 | CodeCademy(英文,交互練習,逐一範例不斷next練習) | sqlbolt:不需要註冊,交互練習,每一節課講解後面都有對應的練習題 | w3schools:每一交互練習,最後有quiz測試題 | |
SQL語法線上練習網站 | sqlteaching,英文版交互練習學習網站 | ||||
SQL語法教學資源(影片) | MySQL Full Course for free(2023) | SQL入門教程-3小時學會MySQL | SQL進階教程:易懂SQL教程,10小時零基礎成長 | MySQL資料庫入門到精通,從mysql安裝到mysql高級 | |
證照考試 |
在台灣地區,可以考的 SQL 資料庫相關證照主要有以下幾種: 一,國際認證 Oracle 資料庫認證:Oracle 公司提供的資料庫認證,包括 OCA、OCP、OCM 等不同級別的認證。 Microsoft 資料庫認證:Microsoft 公司提供的資料庫認證,包括 MCSA、MCSE、MCSD 等不同級別的認證。 IBM 資料庫認證:IBM 公司提供的資料庫認證,包括 DB2 資料庫認證。 國內認證 TQC 資料庫認證:由台灣品質學會提供的資料庫認證,包括 MySQL、Microsoft SQL Server、Oracle 等不同資料庫的認證。 104 人才學院認證:由 104 人力銀行提供的資料庫認證,包括 MySQL、Microsoft SQL Server、Oracle 等不同資料庫的認證。 以下是各個證照的簡要說明: (1).Oracle 資料庫認證 OCA:Oracle 資料庫認證的入門級認證,考核基礎的資料庫概念和操作。 OCP:Oracle 資料庫認證的專業級認證,考核更深入的資料庫概念和操作。 OCM:Oracle 資料庫認證的專家級認證,考核資料庫管理和開發的專業技能。 (2). Microsoft 資料庫認證 MCSA:Microsoft 資料庫認證的入門級認證,考核基礎的資料庫概念和操作。 MCSE:Microsoft 資料庫認證的專業級認證,考核更深入的資料庫概念和操作。 MCPD:Microsoft 資料庫認證的專家級認證,考核資料庫管理和開發的專業技能。 (3). IBM 資料庫認證 DB2 資料庫認證:IBM 資料庫認證的入門級認證,考核基礎的資料庫概念和操作。 二,國內證照 (4). TQC 資料庫認證 MySQL 資料庫認證:TQC 資料庫認證的入門級認證,考核 MySQL 資料庫的基礎概念和操作。 Microsoft SQL Server 資料庫認證:TQC 資料庫認證的入門級認證,考核 Microsoft SQL Server 資料庫的基礎概念和操作。 Oracle 資料庫認證:TQC 資料庫認證的入門級認證,考核 Oracle 資料庫的基礎概念和操作。 (5).104 人才學院認證 MySQL 資料庫認證:104 人才學院認證的入門級認證,考核 MySQL 資料庫的基礎概念和操作。 Microsoft SQL Server 資料庫認證:104 人才學院認證的入門級認證,考核 Microsoft SQL Server 資料庫的基礎概念和操作。 Oracle 資料庫認證:104 人才學院認證的入門級認證,考核 Oracle 資料庫的基礎概念和操作。 以下是一些考取 SQL 資料庫相關證照的建議: 在選擇考照時,可以根據自己的需求和目標來選擇合適的證照。 如果您是剛入門 SQL 資料庫,可以先考取入門級的證照,例如 OCA 或 MCSA 等。 如果您已經有一定的 SQL 資料庫經驗,可以考取專業級或專家級的證照,例如 OCP 或 MCSE 等。 做好準備:考取證照之前,需要對相關的知識和技能進行充分的準備。可以通過閱讀書籍、參加課程或在線學習等方式來進行準備。 練習考題:考取證照之前,需要練習考題來熟悉考試的內容和形式。可以通過購買模擬考題或參加模擬考試等方式來進行練習。 調整狀態:考試當天,需要保持良好的狀態來應對考試。可以通過充分的休息和放鬆來調整狀態。 三,以下是一些與SQL語法有關的資料庫證照的選項(不牽涉到資料庫管理): 專注於SQL語法而不涉及資料庫管理的證照較為罕見,因為SQL通常被視為資料庫管理和數據分析的基礎工具。然而,有一些證照可能會涵蓋SQL語法的使用,並著重於數據的查詢和分析。 1. Oracle SQL Certification Oracle提供了一系列關於SQL的證照,例如“Oracle Database SQL Certified Associate”。 這些證照著重於SQL語法的使用,包括數據的查詢、插入、更新和刪除。 Database SQL Certified Associate: 這是一個由Oracle公司提供的Oracle資料庫SQL認證助理(Oracle Database SQL Certified Associate)的證照, 針對使用Oracle Database的資料庫管理系統。 這個證照要求考生通過兩項考試,分別是Oracle Database SQL Fundamentals和Oracle Database Administration 這個證照同樣包含了資料庫管理的內容,但也涵蓋了資料庫的操作、查詢、分析和優化等方面。 2. Oracle Certified Database Operator (OCDO): 這是Oracle的資料庫操作員認證,要求證明您具備使用SQL語言進行資料庫操作的能力。 3. Microsoft Certified: Data Analyst Associate 這個證照強調使用Power BI進行數據分析,但在處理數據時,你需要熟悉如何使用SQL語法。 學習如何撰寫SQL查詢,進行數據的提取和轉換。 4. Microsoft Technology Associate (MTA): Database Fundamentals 這個初級證照涵蓋了數據庫的基本概念,包括使用SQL進行數據的查詢和修改。 雖然有涉及到一些數據庫管理的內容,但主要還是偏向於數據庫的基本使用和SQL語法。 5. Microsoft Certified Professional, Transact-SQL (MCITP) 這是微軟的Transact-SQL認證,適用於使用微軟資料庫的開發者和管理員。 6. Microsoft Certified: Azure Data Engineer Associate 這是一個由微軟公司提供的微軟認證Azure資料工程師助理(Microsoft Certified: Azure Data Engineer Associate)的證照, 針對使用Azure平台的資料工程師。這個證照要求考生通過兩項考試,分別是Implementing an Azure Data Solution和Designing an Azure Data Solution。 這個證照不牽涉到資料庫管理,而是著重於使用Azure服務來設計、實現和監控資料解決方案,包括使用SQL語言來操作Azure SQL Database等 TQC-DA-大型資料庫管理系統 MySQL5 這是一個由財團法人中華民國電腦技能基金會提供的企業人才技能認證,針對使用MySQL5的資料庫管理系統。這個認證是經過詳細調查、分析各職務工作需求,確認從事該項職務應具備哪些電腦技能,再以實務操作方式進行認證, 。 這個證照不牽涉到資料庫管理,而是著重於資料庫的操作、查詢、分析和優化等方面 7. SAS Certified Specialist: Base Programming 雖然SAS有自己的語法,但它也支持SQL查詢,這個證照涵蓋了使用SQL進行數據處理的部分。 8. IBM Certified Database Administrator - DB2 UDB Administration 這是IBM的資料庫管理員認證,其中也涵蓋了對SQL語言的理解和運用。 |
||||
數據集,資料集,dataset | UCI的各種資料集 | Kaggle的各種資料集 | 考試方式:100題單選題,每題1分,70分及格 | 考試指定用書 | |
colab繪圖如何顯示中文,方法1 |
☎#colab顯示繁體中文,方法1
問題:matplotlib繪圖,會發生中文無法顯示的問題 參考:colab繪圖如何顯示中文 ☎程式碼: #-------------------------------- # colab繪圖顯示繁體中文 #-------------------------------- import matplotlib # 先下載台北黑體字型 !wget -O taipei_sans_tc_beta.ttf https://drive.google.com/uc?id=1eGAsTN1HBpJAkeVM57_C7ccp7hbgSz3_&export=download import matplotlib # 新增字體 matplotlib.font_manager.fontManager.addfont('taipei_sans_tc_beta.ttf') # 將 font-family 設為 Taipei Sans TC Beta # 設定完後,之後的圖表都可以顯示中文了 matplotlib.rc('font', family='Taipei Sans TC Beta') |
||||
colab繪圖如何顯示中文,方法2 |
☎#colab顯示繁體中文,方法2
☎程式碼: #-------------------------------------- # 課本的中文處理 #-------------------------------------- import matplotlib as mpl import matplotlib.font_manager as fm !wget "https://www.wfonts.com/download/data/2014/06/01/simhei/simhei.zip" !unzip "simhei.zip" !rm "simhei.zip" fm.fontManager.addfont('SimHei.ttf') mpl.rc('font', family='SimHei') # 這一行能讓字體變得清晰 %config InlineBackend.figure_format = 'retina' |
||||
windows的spyder繪圖如何顯示中文 |
☎解決:windows的spyder,會發生中文無法顯示的問題 參考:windows繪圖如何顯示中文 ☎程式碼: #在windows 10 的spyder,繪圖如何顯示中文 #使用微軟正黑體(Microsoft JhengHei) plt.rcParams['font.sans-serif'] = ['Microsoft JhengHei'] #有些中文字體在碰到負號時,會無法正常顯示,尤其是內建的字體,加入以下語法就可以解決『負號無法顯示』問題 plt.rcParams['axes.unicode_minus'] = False |
||||
在colab如何更改目錄 |
☎解決:在colab如何更改目錄的問題 ☎程式碼: import os os.chdir("/content/drive/MyDrive/Colab Notebooks") !ls |
||||
解決簡體字csv造成亂碼 |
☎解決簡體字csv,打開後都是亂碼的問題: 第2 種方式: (1)先執行Excel 軟體,新增空白活頁簿, (2)然後在上方功能選項中點選「資料」➜「取得外部資料」➜ 「從文字檔」 → 「選擇csv文件」, 選擇你的CSV 檔, 在「匯入字串精靈」對話框中選擇檔案原始格式65001:Unicode(UTF-8) 即可。 若是utf-8還是有亂碼,再改成 在「匯入字串精靈」對話框中選擇檔案原始格式54986:簡體中文(GB18080) 即可。 (3)打勾:我的資料有標題 (4)分隔符哈:逗號 |
||||
程式模板 |
☎存入excel檔案,並且畫柱狀圖
|
||||
程式模板chp8-6.樞紐分析表的必要指令:展開 |
☎輸出excel檔案:建立3個資料表sheet(英文成績,數學成績,中文成績)
|
||||
打開chrome網頁線上英文字典功能 |
☎如何安裝google chrome的網頁線上英文字典工具: ➜google chrome的右上角工具➜更多工具➜擴充功能 ➜左上角主選單➜開啟chrome線上應用程式商店 ➜勾選:google製作,免費 ➜搜尋:google dictionary➜安裝 ➜到chrome右上擴充功能➜點按google dictionary的『詳細資料』➜擴充功能選項 ➜my language=chinese ➜打勾2個:Pop-up definitions: (1)反白單字翻譯:Display pop-up when I double-click a word (2)ctrl+拖曵整段翻譯: Display pop-up when I select a word or phrase |
||||
excel | 學生成績-chinese | 學生成績-有缺值-chinese | 學生成績-物理歷史-chinese | 學生成績-amy-simon-chinese | |
學生成績-生日-chinese | 學生成績-分組-chinese | 人事資料-chinese | 男女時薪-chinese | ||
學生成績-english | 學生成績-有缺值-english | 學生成績-分組-english | 圖書資料-chinese | ||
上課用csv | 小費tips-chinese | 小費tips-english | 學生成績-chinese | 學生成績-english | |
圖書資料-chinese | |||||
上課用其它資料庫 | mySQL-ch09 | SQLite-student | json-學生成績 | xml-personnel | |
課本商業範例資料庫 | 商業銷售分析-sales csv | 系所生源分析-excel | 股市分析-台積電聯發科股票線型-excel | 問卷資料分析-excel | |
pandas參考教材 | 十分鐘入門 Pandas(英文) | 十分鐘入門 Pandas(英文) | 10分鐘的Pandas入門-繁中版 | 十分鐘入門 Pandas(中文) | |
pandas參考教材 | pandas官網全部章節翻譯 | pandas官網全部章節翻譯 | |||
pandas參考教材(英文) | kaggle pandas教學 | 100 pandas tricks to save you time and energy | 官網0.22.0:pandas documentation | ||
pandas參考教材(中文) | Pandas 101:資料分析的基石 | 資料科學家的pandas 實戰手冊:掌握40 個實用 | 簡明 Python Pandas 入門教學 | 資料分析必懂的Pandas DataFrame處理雙維度資料方法 | |
pandas速查手冊 | pandas 速查手册 - 盖若 | Pandas速查手冊中文版 - 知乎專欄 | Pandas速查手冊中文版- 騰訊雲開發者社區 | ||
pandas速查手冊 | Pandas中DataFrame基本函數整理(全) | Pandas 魔法筆記(1)-常用招式總覽 | pandas的df的操作函數 | ||
資料集dataset | 小費資料集Tips Dataset(csv) | kaggle小費資料集範例A Waiter's Tips example | 【視覺化】小費(tips)資料集分析 | 小費(tips)資料集提取和檢視相應資料 | |
SQL語法 | SQL語法教程 | pandas vs SQL | |||
資料分析4大模組(runoob) | numpy | pandas | matplotlib | scipy | |
w3c、w3school、w3cschool、runoob、w3capi比較 | runoob流量監控儀表板 | ||||
w3school vs runoob |
1.w3school中文版是直接google翻譯英文版 2.runoob.com翻譯自英文版w3schools,但重新排版 3.runoob = run + noob(菜鳥,小白) 4.runoob是python,html,javascript中文版最好的教學網 |
||||
官網 | python官網 | vscode官網 | |||
python 教學網站 | python 3(官網手冊中文) | python 3教學(中文) | python 3教學(中文) | 簡易1小時教學 | |
w3school(英文版) | |||||
線上執行python online |
https://www.python.org/shell/(建議用這個) https://repl.it/languages/python3 |
||||
用Anacond寫python(*建議使用) |
Homework | |||||
Homework 1 | |||||
Homework 2 | |||||
Homework 3 | |||||
Side Project | Homework 3 (Side Project) |
1. Task: You are a newly hired SQL data analyst at Company A. Please analyze the company's business data from 1996 to 1998 from various perspectives to evaluate the following aspects of Company A: 【Employee Competency Assessment, Employee Sales Performance Analysis】, 【Customer Group Analysis (Country Groups, Customer Purchasing Power, Active Customers)】, 【Popular Product Sales Analysis, Preferred Product Analysis】, 【Annual and Monthly Performance Analysis】 Finally, please write a summary report. Use quantitative descriptions to prove the reliability, accuracy, and authority of your analysis, in order to build your personal brand and image as a data analyst. |
chp1-1.前言 | |||||
1.課程簡介投影片-1 | 2.課程簡介投影片-2 | ||||
1.現今企業的數據有哪些 | 2.運用數據三階段 | 3.資料生產的四步驟 | 3.資料最基本的三個概念 | ||
5.什麼是大數據Big Data | 6.大數據分析與傳統商業分析的差異 | 7.大數據的分析步驟 | 8.視覺化常用工具 | ||
9.什麼是大數據Big Data | 10.大數據分析與傳統商業分析的差異 | 11.大數據的分析步驟 | 12.大數據的類型:結構化、非結構化、半結構化資料 | ||
1.現今企業的數據有哪些 |
1.現今企業的數據有哪些: (1)所謂大數據,即是透過不同來源、渠道取得的海量數據資料, 現今企業如果想做數據蒐集的方法變得非常多元,包括: (2)來自用戶的第一方數據: ☎傳統的用戶資料建檔、問卷調查, ☎網頁的瀏覽行為等數據的追蹤, ☎App應用程式的瀏覽行為等數據的追蹤、 ☎物聯網IoT設備傳遞的數據等, 這些都是可以蒐集到。 還有更多可捕捉用戶站外資訊的非第一方數據也漸漸被重視, (3)透過交換共享得到的第二方數據: ☎第二方數據 (也稱為第二方或 2P 數據):是另一個同行公司收集的數據,但可由另一家公司通過購買或協作訪問。 ☎營銷人員在希望擴展其營銷資料庫以吸引新的潛在客戶時,通常會購買它。 ☎例如,如果一個為女性製作的服裝品牌決定增加一個男裝系列,並且需要相關的目標來行銷,就可以向外同行公司購買男裝的數據資料庫。 (4)任何與商業需求有關的第三方數據: ☎第三方數據 (也稱為第三方或3P數據):是來自第三方的數據,該第三方已聚合了多個數據源並使其可供購買。 ☎第三方數據的缺點:是它可能缺乏準確性和品質,因此重要的是了解數據來自何處以及數據使用年限. (5)比較:第一方、第二方和第三方數據之間的差別: 第一方、第二方和第三方數據之間的主要區別在於:『來源』。 ☎第一方數據:由其『存儲/擁有的公司』收集。 ☎第二方數據:由『同行公司』收集,並由另一家公司購買(或通過合作協定與他們共用)。 ☎第三方數據:是從『多個未知來源』收集的,並由一家公司購買。 (6)參考文獻: 1.第一方、第二方、第三方和零數據對廣告商意味著什麼 2.分析大數據在各領域的應用 |
||||
2.運用數據三階段 |
1.市場上的數據需求,主要分為四個階段: ☎數據蒐集、 ☎數據分析、 ☎數據應用 (1)數據蒐集:蒐集第一方、第二方和第三方數據 ☎傳統的用戶資料建檔、問卷調查, ☎網頁的瀏覽行為等數據的追蹤, ☎App應用程式的瀏覽行為等數據的追蹤、 ☎物聯網IoT設備傳遞的數據等, ☎第二方數據:向同行公司購買數據。 ☎第三方數據:向『其他管道,如:數據收集公司』購買。 (2)數據分析:原始數據(raw data)要先處理過 ☎透過多元渠道獲取大量數據資料往往是原始數據(raw data),無法直接使用, ☎必須經過一層又一層的處理過程 ☎處理方法1:數據檢查(data inspecting) ☎處理方法2:數據清理(data cleansing) ☎處理方法3:數據轉換(data transforming) (2-1)處理方法2:數據清理(data cleansing) A.資料清理是資料前處理的第一步,需要先將資料中的問題處理。 B.收載資料時一定會遇到各式髒資料,有的資料樣態會導致無法轉入資料庫,而有的資料會在塞入資料庫時,出現錯位、亂碼等各式各樣非預期的情況,此時倉儲資料清理的準則變得極為重要,因將攸關於整個系統資料的統一。 C.資料清理的準則設定可以從三個角度著手: ☎「檔案類型」問題的清理 ☎「欄位型態」問題的清理 ☎「資料邏輯」問題的清理 D.☎數據清洗:按照一定的規則剔除或者填充不滿足實際需要的業務資料。 E.☎清洗主要包括三部分的內容: 第一部分是測試資料、 第二個是錯誤的資料, 第三個是缺失的資料。 錯誤的資料我們可以關注:『資料是否重複』、格式是否『錯誤、欄位描述』的資訊是否錯誤。 D.(2-1-a)例如:資料來源檔案類型:純文字檔 ☎資料內容以純文字的方式儲存的特色: 欄位與欄位之間以特定符號作為分隔, 例如:逗號、分號或|等等, ☎較常被使用的是「逗號」 ☎可能發生的問題: 然而使用各符號作為分隔時,會遇到其中一種情況是:以逗號為例,如該欄位內容包含逗號,將會造成欄位內容分割時發生錯誤,但此逗號明明屬於資料的內容,卻被誤認為是分隔符號,使得分割完的資料對應到錯誤的欄位 ☎解決的辦法: 將內容值前後都加上雙引號後,再以逗號分隔串連各欄位資料 D.(2-1-a)例如:檔案類型:資料庫 ☎讀取資料庫文字欄位型態的資料時,內容包含換行符號,系統就認為這筆資料已經讀取完,則換行符號後面的資料內容即為下一筆資料的開頭,無法完整的將一筆資料讀取進來。 ☎解決辦法:是移除換行符號,若需要保留換行符號, D.(2-1-b)例如:欄位型態:日期 ☎格式:同時出現以 斜線分隔(YYYY/MM/DD)、無分隔符號(YYYYMMDD) 或 連接號(YYYY-MM-DD) 的日期格式。 ☎處理方式:透過判斷式將內容使用的符號,或沒有符號的純文字格式,換成資料庫可接受的日期格式。 ☎西元年/民國年:同一欄位參雜西元年與民國年的日期。 ☎處理方式:若以西元年格式存入資料庫,年若小於1911,則將 年份+1911 ;年若大於1911,則直接轉入。 ☎值異常:例如日期出現2月30日、年份早於1911年等,或是不可為NULL的欄位卻出現NULL值等非正常的日期。 ☎處理方式:異常的日期通常已經無法追溯到正確的值,或來源的日期就是髒資料,可統一為特定日期(如:1911年1月1日),日後看到即可確定來源的資料因有異常而清理過。 D.(2-1-b)例如:欄位型態:特殊字元 ☎說明:文字是最容易造成轉檔失敗的型態,因為此型態可容許輸入任何類型的字元,例如:特殊字元,但資料庫本身並非接納的了所有字元,較特別的會無法轉入,或需要做其他特殊的轉換才能收載。 ☎處理方式:必須找出那一筆,替換掉『特殊字元』後,再登錄進資料庫。 D.(2-1-c)例如:資料邏輯:縣市代碼 ☎台灣曾經經歷過縣市升格為直轄市,有更換過縣市的中文名稱,那麼資料也須跟著配合調整。 ☎處理方式:是做一張新舊對照縣市代碼與名稱的轉換表,日後資料若有縣市資訊需求,即可勾稽此資料表,讓縣市升格前與後的資料,能自由並適當的轉換,得到想要的資訊。 D.(2-1-c)例如:資料邏輯:身分證號的規則判斷 ☎身分證號的編碼有固定的規則, 第一碼是初次戶籍所在的縣市代碼, 第二碼是性別(1:男性;2:女性), 第三到九碼是流水碼, 最後一碼第十碼是檢查碼,檢查碼會以第一到第九碼之英數字組合經過權重計算而得。 ☎若要確認身分證是否有效,可依據這些規則去做判斷。 (2-3)處理方法3:數據轉換(data transforming) A.☎數據轉化:按照一定的規則、技術手段轉化不同格式,或者顆粒度不同的資料。 B.(1)例如:格式的轉換,比如說時間格式,在不同的業務系統可能會有不同的時間格式,但是到我們大資料系統,為了方便下游資料的使用,我們會統一轉換成一種資料格式。包括一些欄位編碼也是這樣。 C.(2)資料顆粒度的轉換:我們在DW層的資料明細層到資料應用層的整個過程,都是顆粒度不斷轉化的一個過程。還包括一些業務規則、商務規則和一些指標。 ☎補充:數據顆粒度:資料顆粒度指數據的細緻程度。 資料顆粒度越高,細緻程度越高,意味著可以進行更準確的分析。 然而,需要指出的是,資料顆粒度直接決定資料庫需要的儲存空間。 高顆粒度的資料需要更多儲存空間;如果資料顆粒度太高,能夠識別出背後的資料,隱私相關挑戰也會加大。 (4)參考文獻: 1.資料指標體系(1)如何理解資料顆粒度、維度以及指標 |
||||
3.資料生產的四步驟 |
1.資料生產的四步驟: • 資料指標體系搭建 • 資料獲取 • 資料存儲 • 數據清洗 2.建立資料後,即可開始資料分析 |
||||
4.資料最基本的三個概念 |
1.資料最基本的三個概念: ☎顆粒度 ☎維度 ☎指標 (1)顆粒度 ☎資料的顆粒度是指數據的 “粗細”,也就是我們看資料的視野的大小,或者說格局的大小。 ☎例如: 一個電商公司,同樣是看GMV(總銷售額),CEO關注的可能是『今年總的GMV』是多少, 而業務老闆關注的可能是『每月的GMV』如何, 具體到某個小團隊,關注的點可能就是某些商品,『每天的GMV』如何了。 ☎資料顆粒度最常見的劃分是:時間 (2)維度 ☎資料的維度:是指看待事物不同的角度。 ☎是從不同角度來看一件事,會得到不同的結論。 ☎在做資料分析時也是一樣的。分析一個活動,或者一個策略對用戶的吸引時,如果我們以『新增用戶數』作為分析的指標(也就是展開方式,分析點), ☎可以列為『維度』進行拆分的項目: • 時間維度:拆分為早晨、中午、晚上 • 性別維度:男性、女性、未知 • 受教育程度:小學、中學、大學、研究生、博士 ☎通過維度的分解,我們可以看到每個部分的變動,和整體的變化趨勢是否相同,是否存在不同,而哪些不同點往往會成為我們接下來分析的重點。 ☎顆粒度和維度的『相似性』:例如“時間”這個要素,在兩個部分都出現了 ☎顆粒度和維度的『差異性』:不同在於拆分的方式不同 • 顆粒度:是一種縱向的聚合,類似於金字塔的形狀,不同的顆粒度都代表著不同的聚合程度 • 維度:是一種橫向拆分的模式。類似于把鏡子打碎成不同的部分,每個部分都是獨立的,把所有部分合在一起又能拼成完整的整體 (2-1)指標 ☎資料指標:是衡量事物發展方式及程度的一種單位或者方法,一般通過對原始資料進行加減乘除等操作生成得到。 ☎例如:長度,是把所有部分加在一起得到的一種衡量外在大小的單位。 ☎列舉一些常見網路流量的資料指標: • DAU(daily active user):每天,“活躍”過的用戶數的加總,count(distinct user_id) group by day • MAU(monthly active user):每個月,“活躍”過的用戶的加總,count(distinct user_id) group by month • 留存率(次日、7日、30日):今天“活躍”過的用戶的總量,一段時間後的某個時間點,還活躍的比例 • 轉化率:兩個有遞進的環節之間,從上層到下層用戶轉化的比例,例如:CTR=實際點擊次數/展示量 (4)參考文獻: 1.大數據前的資料清理 2.分析大數據在各領域的應用 |
||||
5.什麼是大數據Big Data |
1.為什麼有大數據的問題 現在的企業資料,因為以下的興起,造成大量數據的需求: ☎網路網路資料(社交網站,交易資料) ☎物聯網IoT, Internet of Things ☎感測器sensor 2.大資料的來源 資料來源主要分為以下三類: (1)社交數據: ☎顧名思義,社交資料來源於社交媒體評論、發帖、圖片以及與日俱增的視頻檔。隨著全球 4G 和 5G 蜂窩網路的普及,到 2023 年,全球手機視頻使用者將增至 27.2 億。 ☎雖然社交媒體及其使用趨勢瞬息萬變、難以預測,但作為數位資料的主要來源,其穩定增長趨勢是不會改變的。 (2)機器數據: ☎物聯網設備和機器都配有感測器,能夠發送和接收數位資料。物聯網感測器能夠幫助企業採集和處理來自整個企業的設備、工具和裝置的機器資料。 ☎從天氣和交通感測器到安全監控,全球範圍內的資料生成設備正在迅速增多。 ☎據 IDC 估計,到 2025 年,全球物聯網設備數量將超過 400 億,生成的資料量幾乎占全球數位資料總量的一半。 (3)交易資料: ☎交易資料是世界上發展速度和增長速度最快的資料。 ☎例如,一家大型國際零售商每小時處理超過 100 萬筆客戶交易,全球那麼多採購和銀行交易,生成的資料量會有多麼驚人。 ☎此外,交易資料越來越多地由『半結構化』資料組成,包括圖片和注釋等,使得管理和處理難度不斷增加。 3.大數據的五大特性: (1)大數據的3V特性: ☎資料量(Volume) ☎資料類型(Variety)。 ☎資料傳輸速度(Velocity) ☎Volume(資料量) 無論是天文學、生物醫療、金融、聯網物間連線、社群互動…每分每秒都正在生成龐大的數據量,如同上述所說的 TB、PB、EB 規模單位。 ☎Variety(資料多元性) 真正困難的問題在於分析多樣化的資料:從文字、位置、語音、影像、圖片、交易數據、類比訊號… 等結構化與非結構化包羅萬象的資料,彼此間能進行交互分析、尋找數據間的關聯性。 ☎Velocity(資料即時性) 大數據亦強調資料的時效性。隨著使用者每秒都在產生大量的數據回饋,過去三五年的資料已毫無用處。 一旦資料串流到運算伺服器,企業便須立即進行分析、即時得到結果並立即做出反應修正,才能發揮資料的最大價值。 (2)大數據的4V特性: ☎資料量(Volume) ☎資料類型(Variety) ☎資料傳輸速度(Velocity) ☎資料真實性(Veracity) 在3V成為大數據的主要定義後,隨著儲存資料的成本下降、取得成本也下降,大數據發展出第四個特性:Veracity,意旨除了資料量,也需要確認資料的真實性,過濾掉造假的數據與異常值後,分析出來的結果才能達到準確預測的目的。 (3)大數據的5V特性: ☎資料量(Volume) ☎資料類型(Variety) ☎資料傳輸速度(Velocity) ☎資料真實性(Veracity) ☎價值(Value) 大量、快速取得,來源多樣的資料,經過真實性考驗之後,擁有一定的價值,是大數據的核心架構 4.多大的資料量才算大數據Big Data ☎資料量要多大才能說是大數據? 根據維基百科的定義,資料大小從幾TB(Terabyte)到幾PB(Petabyte)不等 5參考文獻: (1).什麼是大數據 (2).巨量資料(wiki) (3).大數據到底是什麼意思?事實上,它是一種精神 (4).認識大數據定義、分析與工具 (5).大數據,不只是很大的數據 |
||||
6.大數據分析與傳統商業分析的差異 |
1.大數據分析與傳統商業分析的差異 (1)大數據分析: ☎分析方法:使用原始資料➜統計分析➜產生視覺化圖表➜產生報表 ☎使用技術:原始資料,大數據,使用程式碼(python/R)進行結構化分析 ☎預測方法:找出數據間的關聯性➜建立預測模型➜完成預測 2.參考文獻: (1).大數據,不只是很大的數據 |
||||
7.大數據的分析步驟 |
1.大數據的分析步驟:取得,儲存,運算,視覺化 ☎大數據分析第一步:取得 數據隨時隨地都在產生,就連你上班時的行走路線,都可以成為商家選擇新店地址的參考資料。若是擁有大量使用者的企業,蒐集使用者的活動紀錄就可達到以數據預測未來的目標;若是較小型的企業,則可主動邀請使用者填寫問卷,逐步累積資訊量。 ☎大數據分析第二步:儲存 由於資料量龐大,突破儲存技術式處理大數據的第一個難關。因此處理大數據時多使用分散式處理系統,透過分割資料與備份儲存,突破記憶體過小的障礙。 ☎大數據分析第三步:運算 為達成預測未來的目的,機器可以透過分類、迴歸分析、排序、關聯分析等方式找出其中規律,並運用決策樹、遺傳演算法、人工神經網路等模型進行計算。 ☎大數據分析第四步:視覺化 經過分析後的數據仍是數字與列表,不易閱讀。因此可搭配視覺化工具,將數據轉化為較容易閱讀與理解的形式。 2.參考文獻: (1).認識大數據定義、分析與工具 |
||||
8.視覺化常用工具 |
1.三大視覺化工具:Power BI,Tableau,Data Studio 功能:都能夠製作Dashboard(互動儀表板,報表平台) (1)Power BI:微軟Microsoft (1-1)費用: ☎免費版:若要編輯或瀏覽 Power BI Dashboard 僅能確保每個使用者都有在桌面下載 Power BI。 但免費PC版 Power BI 僅能在 Windows 上使用, Mac 使用者僅能夠過網頁/付費方式使用 ☎付費版:Power BI 可透過企業全體購買 Pro License(每個月300元),進而能夠做到網頁版共用。 ☎付費版:公司內可以購買整個 Office 365 package(已經包含 Power BI Pro License),以利內部資料互通,大家也不用另外在電腦下載應用程式,直接網路編輯與瀏覽即可,Mac 使用者也能進而編輯 ☎付費版:Power BI Premium,每月每個人600元。 ☎Power BI定價參考網址 (1-2)功能: Power BI 基本上功能與Tableau大同小異。 Power BI的操作比較簡單,更直覺化(Tableau操作較複雜)。 Power BI同時可支援 Python & R 的視覺化工具, Power BI 的 DAX 語法相較 Tableau 好懂。 (2)Tableau (2-1)費用: ☎Tableau Public 是一個免費的平台 ☎Tableau Prep 免費試用30天 ☎Tableau Desktop 免費試用14天 ☎Tableau Server 免費試用 ☎CRM Analytics(原稱 Tableau CRM) 認識大數據定義、分析與工具 ☎Tableau 在企業級規模部署時Power BI比較便宜,因為雖然Power BI 隨附於O365中,但若要企業級部署,考慮Power BI Pro與Power BI Premium 間的功能差距,若真的要能做到 Tableau Server 大部分的功能,是一定需要 Premium 的,不然會受到算力、數據量大小、協作功能等的差距影響,很難做到企業級部署。 而Power BI Premium 在2021/02時所記錄的起始報價為 台幣 150,120。 Tableau的產品生態: (2-2)功能: ☎功能強大。 ☎2020/01年時統計,世界500強企業裡面96%是Tableau的客戶。 (3)Data Studio (3-1)費用: ☎google雲端軟體,完全免費的平台 (3-2)功能: ☎優點:因為 Google 產品大多都是可開權限共享, 所以要結合Google 其他應用程式(Big Query, Google Analytics),就可以直接串接到 Data Studio,因為便利而使用它。 ☎優點:雲端使用,是目前線上最流暢的(因為google產品都是雲端產品),而且可以共同編輯 ☎缺點:功能性而言,現在 Data Studio 在細節調整上還是略輸 Power BI 與 Tableau 一些 2.BI(Business Intelligence,商業智慧)市場分成2類: (1)自助式分析組別: 組織裡面每個人都有能力利用此組別內的BI工具連接數據與探索數據,發表屬於自己的數據見解 例如:Power BI,Tableau,Data Studio (2)報表組別: 大部份情況之下,因需要撰寫大量函式或需要寫SQL,需要由統一專業部門開發,如IT單位 例如:Finereport,Microstrategy 3.參考文獻: (1).Tableau 與 Power BI 完整比較指南 (4).Tableau VS. PowerBI |
||||
9.大數據的類型:結構化、非結構化、半結構化資料 |
1.大數據的類型:結構化、非結構化、半結構化資料 (1)結構化資料:這類資料最容易整理和搜索, ☎主要包括:財務資料、機器日誌、人口統計明細等。 結構化資料很好理解,類似於 Excel 試算表中預定義的行列佈局。 這種結構下的資料很容易分門別類,資料庫設計人員和管理員只需要定義簡單的演算法就能實現搜索和分析。 不過,即使結構化資料數量非常大,也不一定稱得上大資料,因為結構化資料本身比較易於管理,不符合大資料的定義標準。 一直以來,資料庫都是使用 SQL 程式設計語言管理結構化資料。 SQL 是由 IBM 在 20 世紀 70 年代開發的。 (2)非結構化資料: ☎因為web2.0盛行後產生很多非結構資料。 ☎(web 2.0內容:透過網路應用,以使用者為中心,促進網路上人與人間的資訊交換和協同合作) ☎(web 2.0範例:網路社群、網路應用程式、社群網站、部落格、Wiki) ☎資料包括:社交媒體內容、音訊檔、圖片、開放式客戶評論等。 ☎這些資料符合大數據定義中:『大而複雜』的要求,也因此這些資料通常很難用標準的行列關係型數據庫捕獲。 大多數情況下企業若想搜索、管理或分析大量非結構化資料,只能依靠繁瑣的手動流程。 毫無疑問,分析和理解這類資料能夠為企業帶來價值,但是執行成本往往太過高昂。而且,由於耗時太長。 但是因為無法存儲在試算表或關係型數據庫中,所以非結構化資料通常存儲在資料湖、資料倉庫和 NoSQL 資料庫中。 (3)半結構化資料: ☎半結構化資料是結構化資料和非結構化資料的混合體。 ☎例如:電子郵件, 因為其中的正文:屬於非結構化資料, 而寄件者、收件人、主題和日期:屬於結構化資料。 使用地理標記、時間戳記或語義標記的設備也可以同時提供結構化資料和非結構化內容。 3.參考文獻: (1).什麼是大數據 (2).web 2.0 (4).Tableau VS. PowerBI |
||||
範例1-2.數據分析3部曲,與對應的工作職缺(1)研究數據分析的3步驟圖:
|
|||||
|
範例1-3.數據分析常用工具(1)資料分析常用工具:
|
|||||
|
範例1-4.數據相關的證照(1)資料分析相關的證照:
|
|||||
|
範例1-5.數據分析的內容是什麼?
數據分析的內容主要分三種(統計,比較,預測)
|
|||||
|
chp6. 商業資訊系統的方法 | |||||
目錄 | 1.介紹架設網站的2種方法 | 2.商業資訊系統的三層架構 | 3.常用的架設Apache主機與mysql的工具 | ||
4.用Apache架站練習(php網頁) | |||||
5.用IIS架設網站練習(asp.net網頁) | |||||
|
|||||
1.架設網站方法: |
|||||
2.商業資訊系統的三層架構 | 商業資訊系統的三層架構: |
||||
3.常用的架設Apache主機與mysql的工具 | 常用的php架設主機工具: |
||||
4.用Apache架站練習(php網頁) | 01.下載架站軟體:xampp官網下載 03.練習範例:源碼 C.
discuz論壇範例(php+mySQL資料庫,解壓縮後,複製upload到www下,直接http://localhost/upload/安裝)
|
||||
5.用IIS架設網站練習(asp.net網頁): |
|||||
1.VisLab,VisCam簡介 |
|||||
2.VisLab,VisCam教學影片 |
|||||
3.範例1:Classification分類器:標記工具 |
|||||
4.範例2:Classification分類器:訓練工具 |
|||||
5.範例3:Classification分類器:驗證工具 |
|||||
6.範例4:Object Detection 物件偵測:標記工具 |
|||||
7.範例5:Object Detection 物件偵測:訓練工具 |
|||||
8.範例6:Object Detection 物件偵測:驗證工具 |
|||||
9.範例7:Segmentation 分割:標記工具 |
|||||
10.範例8:Segmentation 分割:訓練工具 |
|||||
11.範例9:Segmentation 分割:驗證工具 |
|||||
12.範例10:VisCam |
|||||
13.VisLab 進階操作 &蒐集圖片方式 |
|||||
|