Bài viết Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka thuộc chủ đề về Giải Đáp đang được rất nhiều bạn quan tâm đúng không nào !! Hôm nay, Hãy cùng TruongGiaThien.Com.Vn tìm hiểu Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka trong bài viết hôm nay nha !
Các bạn đang xem chủ đề về : “Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka”

Xem thêm

Video cực hay về Khai phá luật kết hợp bạn nên xem 1 lần trong đời

Dữ liệu được dùng trong ví dụ này là dữ liệu về khách hàng ngân hàng (bank.arff) gồm 11 thuộc tính và 600 khách hàng (samples, instances, patterns). Cấu trúc file bank.arff như sau

Dữ liệu về một số khách hàng trong file bank.arff như sau

Xem thêm

Nạp dữ liệu (nạp file bank.arff)

Chọn tab Association và chọn thuật toán Apriori

Thiết lập các tham số (numRules, Support, Confidence,…)

Giải thích một số tham số chính của thuật toán Apriori sinh luật kết hợp

lowerBoundMinSupport: Cận dưới của minimum support.

metricType: Có 4 loại metricType là Confidence, Lift , Leverage và Conviction.

Minimum metric score: Chỉ quan quan đến các luật có metric score cao hơn giá trị này.

numRules: Số luật muốn tìm (các luật sẽ được sắp xếp theo thứ tự giảm dần của metric score.

significanceLevel: Mức ý nghĩa (chỉ dùng khi metricType là confidence).

upperBoundMinSupport: Cận trên của minimum support (bắt đầu lặp lại việc giảm minimum support từ upperBoundMinSupport đến lowerBoundMinSupport).

Các luật kết hợp thu được

10 luật tốt nhất được sinh ra bởi thuật toán Apriori trên dữ liệu bank.arff như sau (sắp xếp giảm dần theo confidence):

1. income=43759_max 80 ==> save_act=YES 80    conf:(1)

2. age=52_max income=43759_max 76 ==> save_act=YES 76    conf:(1)

3. income=43759_max current_act=YES 63 ==> save_act=YES 63    conf:(1)

4. age=52_max income=43759_max current_act=YES 61 ==> save_act=YES 61    conf:(1)

5. children=0 save_act=YES mortgage=NO pep=NO 74 ==> married=YES 73    conf:(0.99)

6. sex=FEMALE children=0 mortgage=NO pep=NO 64 ==> married=YES 63    conf:(0.98)

7. children=0 current_act=YES mortgage=NO pep=NO 82 ==> married=YES 80    conf:(0.98)

8. children=0 mortgage=NO pep=NO 107 ==> married=YES 104    conf:(0.97)

9. income=43759_max current_act=YES 63 ==> age=52_max 61    conf:(0.97)

10. income=43759_max save_act=YES current_act=YES 63 ==> age=52_max 61    conf:(0.97)

Lựa chọn thuộc tính và Khai phá luật kết hợp trên WEKA

Xem thêm

Bài Nổi Bật  Thuốc Kháng Sinh Metronidazol 250Mg Là Thuốc Gì, Metronidazol 250Mg

1. LỰA CHỌN THUỘC TÍNH & KHAI PHÁ LUẬT KẾT HỢP TRÊN WEKA THỰC HIỆN LỰA CHỌN THUỘC TÍNH, LÀM SẠCH DỮ LIỆU VÀ KHAI PHÁ LUẬT KẾT HỢP DATA MINING 1 2. MỤC LỤC 1. GIỚI THIỆU VỀ BÀI TOÁN 2. CHUẨN BỊ DỮ LIỆU 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU 4. ASSOCIATION RULE MINNING – KHAI PHÁ LUẬT KẾT HỢP 5. ATTRIBUTE SELECTION – LỰA CHỌN THUỘC TÍNH DATA MINING 2 3. 1. Giới thiệu về WEKA và dữ liệu WEKA – Waikato Enviroment for Knowledge Analysis – là một tập hợp các giải thuật học máy và các công cụ xử lý dữ liệu. Ngôn ngữ: Java, phân phối dưới giấy phép GNU General Public Hình 1. Logo của Weka khi chương trình được khởi động DATA MINING 3 4. Mô tả dữ liệu bank-data Dữ liệu bank-data từ DePaul University, đây là dữ liệu ví dụ mô phỏng từ dữ liệu ngân hàng Trong thực tế dữ liệu – dữ liệu bank-data – được tập hợp từ các đơn đăng ký của các khách hàng đến mở dịch vụ và thực hiện đăng ký online của 1 ngân hàng DATA MINING 4 5. id Số định danh (mỗi tài khoản 1 thứ tự) age Số tuổi của khách hàng (tính bằng năm, dạng số) sex 2 tổng giá trị nam hay nữ: MALE/FEMALE region 4 tổng giá trị về khu vực: inner_city/rural/suburban/town income mức lương của khách hàng (dạng số) married Khách hàng đã kết hôn hay chưa, 2 tổng giá trị: YES/NO children Số lượng con cái của khách hàng (dữ liệu dạng số) car Khách hàng có xe hơi hay không: YES/NO save_acct Khách hàng có tài khoản (TK) tiết kiệm hay không: YES/NO current_acc Khách hàng có TK vãng lai hay không: YES/NO mortgage Khách hàng có của cải/tài sản thế chấp hay không: YES/NO pep Khách hàng có mua PEP (Personal Equity Plan) sau lần liên lạc gần nhất: YES/NO DATA MINING 5 6. 2. CHUẨN BỊ DỮ LIỆU TRÊN WEKA Chuyển file CSV > ARFF: dữ liệu dạng Attribute- Relation File Format (ARFF) là dữ liệu được Weka chấp nhận, trong khi dữ liệu chúng ta thường có ở dạng csv hoặc tsv DATA MINING 6 7. Chuyển file CSV > ARFF Chọn Tools > ArffViewer để mở hộp thoại ArffViewer Mở file định dạng CSV, sau đó lưu lại với định dạng ARFF DATA MINING 7 8. Lưu ý Chọn Invoke options dialog là vì các giải thuật khai phá luật kết hợp như Apriori, FPGrowth bắt buộc thuộc tính dạng Nominal attributes (dữ liệu phân loại DATA MINING 8  9. DATA MINING 9 10. 3. DATA CLEANING – LÀM SẠCH DỮ LIỆU Mục đích: Tìm, sửa đổi hoặc loại bỏ các record dữ liệu không hoàn thiện, không chính xác hoặc không liên quan đến dữ liệu hiện có Data Cleansing là 1 phần trong quy trình Tiền xử lý dữ liệu DATA MINING 10 11. DATA MINING 11 Tại sao cần làm sạch dữ liệu? 12. Thực hiện data cleaning bằng weka Với các tổng giá trị bị mất ◦Weka sẽ đưa ra tỉ lệ % dữ liệu bị mất ◦Dùng bộ lọc: ReplaceMissingValues Với dữ liệu nhiễu ◦Weka sẽ báo cáo về các dữ liệu cá biệt ◦Các bộ lọc khả năng dùng: RemoveMisclassified, MergeTwoValues DATA MINING 12 13. Thực hiện làm sạch dữ liệu bank-data DATA MINING 13 Theo báo cáo trên thì dữ liệu bank-data không bị mất dữ liệu và cũng không có dữ liệu ngoại lai 14. Làm sạch dữ liệu bầu cử: vote Dữ liệu có số record bị mất là 12 chiếm 3% và không có dữ liệu ngoại lai DATA MINING 14 15. Xử lý dữ liệu bị mất DATA MINING 15 16. Các ô bị mất sẽ được tô đậm DATA MINING 16 17. DATA MINING 17 18. Làm sạch dữ liệu segment-test Ở đây dữ liệu segment-test không có dữ liệu bị mất, và có số lượng dữ liệu ngoại lai: 34, chiếm 4% DATA MINING 18 19. Xử lý dữ liệu ngoại lai DATA MINING 19 RemoveMisclassified MergeTwoValues 20. Dùng RemoveMisclassified DATA MINING 20 21. Dùng MergeTwoValues DATA MINING 21 22. 5. KHAI PHÁ LUẬT KẾT HỢP Mục đích: của luật kết hợp (Association Rule – AR) là tìm ra các mối kết hợp (association) hay tương quan (correlation) giữa các đối tượng trong khối lượng lớn dữ liệu. DATA MINING 22 23. Ứng dụng: trong nhiều lĩnh vực, nhất là trong buôn bán như Market Basket Analysis: Cross selling – bán hàng chéo, Product placement – sắp xếp danh mục, Affinity promotion – quảng cáo kết nối, Customer behavior Analysis – phân tích hành vi khách hàng. DATA MINING 23 24. một vài khái niệm thường gặp khi khai phá luật kết hợp với weka: •Item: phần tử •ItemSet: tập phần tử •Transaction: giao dịch •Association: sự kết hợp •Association rule: luật kết hợp •Support: độ hỗ trợ •Confidence: độ tin cậy DATA MINING 24 25. •Frequent itemset: tập phần tử thường nhật •Strong association rule: luật kết hợp mạnh •Minimum support threshold: ngưỡng hỗ trợ tối thiểu •Minimum confidence threshold: ngưỡng tin cậy tối thiểu DATA MINING 25 26. Thực hiện khai phá luật kết hợp với giải thuật Apriori: Mục tiêu khai phá được mối quan hệ của các thuộc tính thu thập được từ khách hàng DATA MINING 26 27. DATA MINING 27 28. DATA MINING 28 • car: khai phá luật kết hợp phân lớp • classindex: -1 ở đây là lấy lớp cuối cùng • lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu • metricType: dạng thang đo độ tin cậy của giải – ở trường hợp này: Confidence • minMetric: số điểm tối thiểu chấp nhận được của thang đo • numRules: số rules cần tìm • outputItemSets: hiển thị tập dữ liệu • removeAllMissingCols: loại bỏ các cột không chứa tổng giá trị • significanceLevel: mức ý nghĩa, chỉ vận hành với metric type là Confidence • treatZeroAsMissing: loại bỏ tổng giá trị đầu tiên mỗi row • upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu • verbose: chạy chế độ hiển thị chi tiết quy trình một vài thông số lưu ý: 29. Chi tiết các thông số • car: khai phá luật kết hợp phân lớp • classindex: index của lớp dùng trong trường hợp “car=true”, -1 ở đây là lấy lớp cuối cùng • lowerBoundMinSupport: cận dưới độ hỗ trợ tối thiểu • metricType: dạng thang đo độ tin cậy của giải thuật khai phá luật kết hợp, ở đây là dạng Confidence • minMetric: số điểm tối thiểu chấp nhận được của thang đo • numRules: số rules cần tìm • outputItemSets: hiển thị tập dữ liệu • removeAllMissingCols: loại bỏ các cột không chứa tổng giá trị • significanceLevel: mức ý nghĩa, chỉ vận hành với metric type là Confidence • treatZeroAsMissing: loại bỏ tổng giá trị đầu tiên mỗi row • upperBoundMinSupport: cận trên độ hỗ trợ tối thiểu • verbose: chạy chế độ hiển thị chi tiết quy trình DATA MINING 29 30.

Bài Nổi Bật  Tss Là Gì - Tổng Chất Rắn Lơ Lửng

Bạn đang xem: Weka là gì

Xem thêm: Nhập Dữ Liệu Tiếng Anh Là Gì, Nhân Viên Nhập Liệu Tiếng Anh Gọi Là Gì

Xem thêm: Pbs Là Gì – Dung Dịch đệm Pbs

5. ATTRIBUTE SELECTION Dữ liệu phân tích thường chứa nhiều rất nhiều thuộc tính, nhưng không phải tất cả chúng đều rất cần thiết để khai phá tri thức. DATA MINING 30 31. Lựa chọn thuộc tính trong Weka Để chọn lựa thuộc tính trong weka bạn cần xác định attribute evaluator và serch method, sau đó nó sẽ tìm kiếm trong không gian các thuộc tính con, và đánh giá từng tập con một. Mỗi attribute evaluator được dùng với một phương pháp tìm kiếm tương ứng 31 32. Attribute Subset Evaluators Subset Evaluators sẽ lấy một tập thuộc tính con và trả ra một tổng giá trị để tìm kiếm. 32 33. “Wrapper” method Đánh giá tập thuộc tính bằng một giải thuật học. Độ chính xác của giải thuật học trên tập thuộc tính này được xấp xỉ nhờ cross-validation. 33 34. “Wrapper” method •Attribute evaluator chọn WrapperSubsetEval, chọn J48, 10 fold cross-validation •Search method: BestFirst, chọn backward. •Áp dụng với bank-data, ta được tập thuộc tính là income, married, children, save_act, mortgage có merit = 0.863 •Tổng số tập được đánh giá: 72 với search termination là 5 34 35. • Tập thuộc tính bắt đầu: (1,2,3,4,5,6,7,8), backward search, và search termination = 1, ta được (1,2,3,4,5,6,7). Nếu termination = 5 ta được (4,5,6). • Nếu dùng forward search với tập bắt đầu (1,2,3) ta sẽ lấy toàn bộ thuộc tính. • Nếu dùng bi-directional với tập (1,2,3) ta có được (4,5,6,8,10) với merit = 0.863 Chú ý: tối ưu cục bộ vs tối ưu toàn cục • search termination > 1 sẽ giúp bạn vượt qua được thung lũng. • Với các điểm bắt đầu khác nhau, chúng ta sẽ tới được điểm tối ưu khác nhau. • Greedy searching chỉ tìm được tối ưu cục bộ trong không gian tìm kiếm. 35 36. Scheme-Indepedent attribute selection Wrapper đơn giản, trực tiếp nhưng rất chậm. Chúng ta chú ý: 1. dùng single-attribute evaluator với ranking. – Giúp loại bỏ những thuộc tính không thích hợp 2. dùng attribute subset evaluator cùng với search method. – Giúp loại bỏ những thuộc tính dư thừa. Attribute subset evaluator: – wrapper method là scheme-dependent subset evaluators – Còn có scheme-independent subset evaluators 36 37. Scheme-Indepedent attribute selection CfsSubsetEval: là một scheme-independent subset evaluators Theo CfsSubsetEval thì một tập thuộc tính tốt phải thỏa mãn: – Có tương quan cao với thuộc tính phân lớp (class attribute). – Tương quan yếu với các thuộc tính trong cùng tập. Nó được thể hiện qua công thức sau: C là hàm đánh giá tương quan giữa 2 thuộc tính 37 38. Attribute Selected classifier 38 39. Attribute Selected classifier AttributeSelectedClassifier chọn lựa thuộc tính chỉ dựa trên tập huấn luyện, thậm chí khi được đánh giá bằng cross- validation. Đây là phương pháp làm đúng. Nó cho kết quả tôt nếu chọn bộ phân loại cùng loại thuộc wrapper. 39 40. Attribute Selected classifier So sánh CfsSubsetEval với Wrapper trên bank-data.arff Naive Bayes J48 IBK No attribute selection 70.33% 85% 75.33% Attribute selection dùng AttributeSelectedClassifier CfsSubsetEval (rất nhanh) 69.83% 79% 77.66% Wrapper selection (khá chậm) 72% 85.5% 85.16% GainRatioAttributeEval (cực nhanh) 71% 79.16% 77.83% (giữ lại 4 thuộc tính) Trong nhiều trường hợp thì CfsSubsetEval tốt gần bằng Wrapper selection nhưng nhanh hơn nhiều. 40 41. Fast attribute selection dùng ranking Single-attribute evaluator: khả năng loại bỏ những thuộc tính không thích hợp, nhưng thuộc tính dư thừa thì không. – dùng với ranker search, nó dùng để sắp xếp thuộc tính theo tổng giá trị đánh giá. – Single-attribute evaluator đánh giá mối tương quan của từng thuộc tính với với thuộc tính phân lớp. Mỗi phương pháp thì có công thức riêng. VD: InfoGainAttributeEval dùng information gain, hay GainRatioAttributeEval dùng công thức gain ratio. 41 42. Ranker method có các tham số: số lượng tham số cần giữ, ngưỡng cần chọn. vì thế Single-attribute evaluation tuy nhanh nhưng khó xác định số lượng tham số cần giữ lại. Không loại được thuộc tính dư 42 43. Thành viên đóng góp Tên Nguyễn Tuấn Vũ Nguyễn Anh Việt Hồ Quang Thanh Đoàn Vương Bính Tú Vũ Văn Thống Nguyễn Tường Vi DATA MINING 43

Bài Nổi Bật  Nữ Sinh Năm 1996 Là Năm Con Gì ? Tuổi Bính Tý Hợp Tuổi Nào, Màu Gì, Hướng Nào?

Chuyên mục: Hỏi Đáp

Các câu hỏi về Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka

Nếu có bắt kỳ câu hỏi thắc mắt nào vê Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka hãy cho chúng mình biết nha, mõi thắt mắt hay góp ý của các bạn sẽ giúp mình nâng cao hơn hơn trong các bài sau nha <3

Bài viết Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka ! được mình và team xem xét cũng như tổng hợp từ nhiều nguồn. Nếu thấy bài viết Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka Cực hay ! Hay thì hãy ủng hộ team Like hoặc share.
Nếu thấy bài viết Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka rât hay ! chưa hay, hoặc cần bổ sung. Bạn góp ý giúp mình nha!!

Các Hình Ảnh Về Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka

Các từ khóa tìm kiếm cho bài viết #Weka #Là #Gì #Khai #Phá #Luật #Kết #Hợp #Với #Weka

Tham khảo thêm tin tức về Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka tại WikiPedia

Bạn khả năng tra cứu nội dung về Weka Là Gì – Khai Phá Luật Kết Hợp Với Weka từ trang Wikipedia.◄

Tham Gia Cộng Đồng Tại

💝 Nguồn Tin tại: https://truonggiathien.com.vn/

💝 Xem Thêm Chủ Đề Liên Quan tại : https://truonggiathien.com.vn/hoi-dap/

no.of dependents là gì
weka classifier
rural là gì
crypto minning

Từ Khóa Liên Quan: weka là gì, phá block attribute, data cleaning weka, market basket analysis là gì, khai phá luật kết hợp, hướng dẫn sử dụng weka

Give a Comment