Thuật Toán Cây Quyết Định

--- Bài mới hơn ---

  • Cơ Quan Nào Có Thẩm Quyền Ra Quyết Định Khởi Tố Bị Can?
  • Quyết Định Xóa Kỷ Luật Học Sinh
  • Thông Tư 08/tt 1988 Hướng Dẫn Khen Thưởng Thi Hành Kỷ Luật Học Sinh
  • Quyết Định Kỷ Luật Học Sinh
  • Bài 3: Kỹ Năng Ra Quyết Định Và Tổ Chức Thực Hiện Quyết Định Của Cán Bộ Lãnh Đạo Cấp Cơ Sở.
  • Trong lý thuyết quyết định, một cây quyết định là một đồ thị những quyết định và những kết quả có khả năng của chúng (bao gồm cả giá phải trả và độ rủi ro) được sử dụng để tạo ra một đường đi tới đích , [5]. Quá trình này được lặp lại trên từng tập con thu được. Quá trình đệ quy sẽ kết thúc khi không thể chia tiếp được nữa hoặc khi từng phần tử của tập con được gán với một lớp đơn.

    Cây quyết định được mô tả bằng cách tính toán xác suất có điều kiện. Cây quyết định cũng có thể được mô tả như là một kỹ thuật tính toán và hỗ trợ toán học, kỹ thuật này hỗ trợ việc mô tả, phân loại và khái quát tập dữ liệu đưa vào. Dữ liệu đưa vào dạng ghi có dạng:

    (x, y) = (x1, x2, … ,xk, y )

    Biến phụ thuộc y là biến mà chúng ta cố gắng để biết, phân lớp hay tổng quát hóa, còn các biến x1, x2,… là các biến giúp ta thực hiện công việc đó.

    Trong bài toán phân lớp văn bản, x là vector đặc trưng, y là phân lớp cần tìm.

    So với các phương pháp khác trong Data Mining, phương pháp cây quyết định có những ưu điểm nổi bất như:

    – Rất dễ hiểu và dễ giải thích: mọi người đều có thể hiểu mô hình cây quyết định qua một số giải thích tổng quát ban đầu.

    – Dữ liệu dùng cho cây quyết định chỉ là những dữ liệu căn bản hoặc có thể không cần thiết. Một số kỹ thuật khác có thể đòi hỏi dữ liệu chuẩn, tạo các biến giả và loại bỏ đi các giá trị trống.

    – Có khả năng xử lý cả dữ liệu thực và dữ liệu mập mờ. Một số kỹ thuật khác chỉ sử dụng những tập dữ liệu đặc biệt chẳng hạn như mạng nơron có thể chỉ sử dụng các biến là số.

    – Có thể kiểm chứng mô hình bằng cách thử thống kê.

    – Có khả năng thực hiện tốt đối với dữ liệu lớn trong thời gian ngắn: một lượng lớn dữ liệu có thể được phân tích bằng máy tính cá nhân trong thời gian ngắn đủ để người sử dụng đưa ra quyết định dựa trên sự phân tích đó.

    Tuy nhiên sử dụng phương pháp cây quyết định có thể xảy ra hiện tượng overfit, tức là tồn tại một giả thuyết h phù hợp với tập ví dụ huấn luyện nhưng tiên đoán không chính xác bằng giả thuyết h’ ít phù hợp với tập ví dụ huấn luyện hơn so với h. Để giải quyết vấn đề này chúng ta phải dùng cách chặt bớt cây (pruning), bỏ bớt đi các nhánh dữ liệu nhiễu và dư thừa…

    Một vấn đề khác nữa của phương pháp cây quyết định là sự không an định của thuật toán. Tức là, dù chỉ 1 sự thay đổi nhỏ như thêm đỉnh, giảm đỉnh, thêm noise, … thì kết quả của thuật toán sẽ khác đi rất nhiều.

    Với những ưu, khuyết điểm như thế, cây quyết định cũng không phải là 1 phương pháp thường được sử dụng trong bài toán phân loại văn bản.

    --- Bài cũ hơn ---

  • Hủy Quyết Định Xử Phạt Vi Phạm Hành Chính Bs Truyện
  • Hủy Bỏ Quyết Định Xử Phạt Vi Phạm Hành Chính
  • Thủ Tướng Chính Phủ Quyết Định Hỗ Trợ Ngân Sách Địa Phương Phòng, Chống Dịch Covid
  • Thủ Tướng Quyết Định Đối Tượng Cụ Thể Được Hỗ Trợ Do Gặp Khó Bởi Covid
  • Cách Nhận Tiền Hỗ Trợ Do Bị Ảnh Hưởng Bởi Covid
  • Thuật Toán Cây Quyết Định C4.5

    --- Bài mới hơn ---

  • Đề Tài: Hệ Thống Giúp Tư Vấn Nghề Nghiệp Cho Học Sinh Thpt, Hay
  • Lý Do Steve Jobs Quyết Định Sản Xuất Tablet
  • Những Quyết Định Marketing Táo Bạo Đi Trước Thời Đại Của Steve Jobs
  • Giới Thiệu Về Steve Jobs
  • Lời Khuyên Đáng Giá Ngàn Vàng Khi Học Tiếng Anh
  • Thuật toán cây quyết định

    Thuật toán cây quyết định cho ra kết quả là một tập luật của những dữ liệu huấn luyện có thuộc tính. Cây quyết định là một công cụ phổ biến trong khai phá và phân lớp dữ liệu

    Đặc điểm của cây quyết định: là một cây có cấu trúc, trong đó:

    • Root (Gốc): Là nút trên cùng của cây.
    • Node trong: nút trung gian trên một thuộc tính đơn (hình Oval).
    • Nhánh: Biểu diễn các kết quả của kiểm tra trên nút.
    • Node lá: Biểu diễn lớp hay sự phân phối lớp (hình vuông hoặc chữ nhật)
      Phát triển cây quyết định: đi từ gốc, đến các nhánh, phát triển quy nạp theo hình thức chia để trị.

    Bước 1. Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước

    Bước 2. Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị của thuộc tính đã chọn

    Bước 3. Sắp xếp, phân chia tập dữ liệu đào tạo tới node con

    bước 4. Nếu các ví dụ được phân lớp rõ ràng thì dừng.

    Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con

      Cắt tỉa cây: nhằm đơn giản hóa, khái quát hóa cây, tăng độ chính xác

    Thuật toán Hunt sử dụng trong C4.5, CDP,…

    S={S1,S2,…,Sn} là tập dữ liệu đào tạo

    C={C1,C2,…,Cm} là tập các lớp

    Trường hợp 2: S thuộc về nhiều lớp trong C.

    • Chọn 1 test trên thuộc ơnh đơn có nhiều giá trị O={O1,..Ok}

      (k thường bằng 2).

    Đánh giá thuật toán cây quyết định trong lĩnh vực khai phá dữ liệu

    Thuận lợi:

    • Quá trình xây dựng cây quyết định không dùng kiến thức về lĩnh vực dữ liệu đang nghiên cứu hoặc thông số đầu vào nào.
    • Kết quả của quá trình huấn luyện (học) được biểu diễn dưới dạng cây nên dễ hiểu và gần gũi với con người.
    • Nhìn chung, các giải thuật cây quyết định cho kết quả có độ chính xác khá cao.

    Khó khăn:

      • Đối với các tập dữ liệu có nhiều thuộc tính thì cây quyết định sẽ lớn (về chiều sâu cả chiều ngang), vì vậy làm giảm độ dễ hiểu.
      • Việc xếp hạng các thuộc tính để phân nhánh dựa vào lần phân nhánh trước đó và bỏ qua sự phụ thuộc lẫn nhau giữa các thuộc tính.
      • Khi dùng độ lợi thông tin (Information Gain) để xác định thuộc tính rẽ nhánh, các thuộc tính có nhiều giá trị thường được ưu tiên chọn.

    Thuật toán C4.5

    • Là sự phát triển từ CLS và ID3.
    • ID3 (Quinlan, 1979)‐ 1 hệ thống đơn giản ban đầu

      chứa khoảng 600 dòng lệnh Pascal

    • Năm 1993, J. Ross Quinlan phát triển thành C4.5 với

      9000 dòng lệnh C.

    Với những đặc điểm C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định hiệu quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước nhỏ. C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm này làm C4.5 chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại mỗi node trong quá trình phát triển cây quyết định. C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu). Kỹ thuật này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà độ chính xác so với nhánh tương ứng cây quyết định là tương đương.

    Tư tưởng phát triển cây quyết định của C4.5 là phương pháp Hunt đã nghiên cứu ở trên. Chiến lược phát triển theo độ sâu (depth-first strategy) được áp dụng cho C4.5.

    Mã giả của thuật toán C4.5:

    Pseudocode:

    · Kiểm tra case cơ bản

    · Với mỗi thuộc tính A tìm thông tin nhờ việc tách thuộc tính A

    · Chọn a_best là thuộc tính mà độ đo lựa chọn thuộc tính “tốt nhất”

    · Dùng a_best làm thuộc tính cho node chia cắt cây.

    · Đệ quy trên các danh sách phụ được tạo ra bởi việc phân chia theo a_best, và thêm các node này như là con của node

    (1) ComputerClassFrequency(T);

    (2) if OneClass or FewCases

    return a leaf;

    Create a decision node N;

    (3) ForEach Attribute A

    ComputeGain(A);

    (4) N.test=AttributeWithBestGain;

    (5) if (N.test is continuous)

    find Threshold;

    (6) ForEach T’ in the splitting of T

    (7) If ( T’ is Empty )

    Child of N is a leaf

    else

    (8) Child of N=FormTree(T’);

    (9) ComputeErrors of N;

    return N

    C4.5 có những đăc điểm khác với các thuật toán khác, đó là: cơ chế chọn thuộc tính để kiểm tra tại mỗi node, cơ chế xử lý với những giá trị thiếu, việc tránh “quá vừa” dữ liệu, ước lượng độ chính xác và cơ chế cắt tỉa cây.

    C4.5 dùng Gain-entropy làm độ đo lựa chọn thuộc tính “tốt nhất”.

    Phần lớn các hệ thống đều cố gắng để tạo ra một cây càng nhỏ càng tốt, vì những cây nhỏ hơn thì dễ hiểu hơn và dễ đạt được độ chính xác dự đoán co hơn. Do không thể đảm bảo được sự cực tiểu của cây quyết định, C4.5 dựa vào nghiên cứu tối ưu hóa, và sự lựa chọn cách phân chia mà có độ đo lựa chọn thuộc tính đạt giá trị cực đại.

    Hai độ đo được sử dụng trong C4.5 là information gaingain ratio. RF(Cj,S) biểu diễn tần xuất (Relative Frequency) các case trong S thuộc về lớp Cj.

    Sau khi S được phân chia thành các tập con S1, S2,…, St bởi test B thì information gain được tính bằng:

    Tuy nhiên có một vấn đề khi sử dụng G(S,B) ưu tiên test có số lượng lớn kết quả, ví dụ G(S,B) đạt cực đại với test mà từng Si chỉ chứa một case đơn. Tiêu chuẩn gain ratio giải quyết được vấn đề này bằng việc đưa vào thông tin tiềm năng (potential information) của bản thân mỗi phân hoạch.

    Chuyển đổi sang luật: cắt tỉa cây

    • Dạng luật: if A and B and C… then class X. Không thỏa mãn điều kiện chuyển về lớp mặc định.
    • Xây dựng luật: 4 bước

      • Mỗi đường đi từ gốc đến lá là một luật mẫu. Đơn giản luật mẫu bằng

        cách bỏ dần điều kiện mà không ảnh hưởng tới độ chính xác của luật.

      • Các luật đã cắt tỉa được nhóm lại theo giá trị phân lớp tạo ra các tập

        Với mỗi tập con, xem xét để lựa chọn luật để tối ưu hóa độ chính

        xác dự đoán của lớp gắn với tập luật đó.

      • Sắp xếp các tập luật trên theo tần số lỗi. Lớp mặc định được tạo ra

        bằng cách xác định các case trong tập S không chứa trong các luật hiện tại và chọn lớp phổ biến nhất trong các case đó làm lớp mặc định.

      • Ước lượng đánh giá: các luật được ước lượng trên toàn tập S, loại bỏ

        luật làm giảm độ chính xác của sự phân lớp.

    • Hoàn thành: 1 tập các quy tắc đơn giản được lựa chọn cho mỗi lớp

    --- Bài cũ hơn ---

  • Machine Learning Decision Tree (Cây Quyết Định)
  • Ra Quyết Định Là Gì? Những Kỹ Năng Ra Quyết Định Chiến Lược
  • Quy Định Khu Vực In Sao Đề Thi Tuyệt Đối Nghiêm Cẩn
  • Quyết Định In Sao Đề Thi
  • Quyết Định Thành Lập Tổ In Sao Đề Thi
  • Thuật Toán Cây Quyết Định (P.4): Ưu & Khuyết Điểm, Stopping & Pruning Method

    --- Bài mới hơn ---

  • Những Yếu Tố Quyết Định Trong Marketing Trực Tiếp
  • #1 Marketing Là Gì? 9 Định Nghĩa Cơ Bản Về Marketing Bạn Nên Biết
  • 4P Trong Marketing Là Gì? Chiến Lược Sống Động Trong Từng P
  • Bài Giảng Marketing 2014: Chương 7
  • Tiết Lộ Những Bí Mật Kỳ Lạ Của Giới Triệu Phú
  • (Nguồn hình Towardsdatascience)

    Thuật toán Cây quyết định (P.1): Classification & Regression tree (CART) Thuật toán Cây quyết định (P.2): Classification & Regression tree (Gini index)

    Thuật toán Cây quyết định (P.3): C4.5 (Entropy) (chèn link vô sau)

    Trước khi đi vào giới thiệu cơ bản và tổng quan về các phương pháp Stopping & Pruning (ngừng phân nhánh, ngắt cành) chúng ta cùng điểm qua một số ưu điểm và khuyết điểm của thuật toán cây quyết định.

    Ưu điểm & khuyết điểm của thuật toán cây quyết định

    Decision trees là một trong những phương pháp Data mining, cụ thể Classification được sử dụng nhiều nhất trong các dự án nghiên cứu dữ liệu, là phương pháp Supervised learning – học có giám sát hiệu quả nhất vì các đặc điểm của nó và được ứng dụng trong mọi khía của các lĩnh vực khác nhau từ kinh tế đến xã hội, không chỉ riêng khoa học dữ liệu, và là mảng kiến thức quan trọng mà bất kỳ chuyên gia phân tích nào phải có.

    Tuy nhiên cũng giống như các công cụ phân tích khác, Decision trees có các ưu điểm và khuyết điểm mà chúng ta phải quan tâm, nhìn lại lần nữa, và lấy đó làm cơ sở để áp dụng vào các dự án khai thác dữ liệu sao cho phù hợp, và hiệu quả.

    Ưu điểm:

    • Thuật toán Decision trees đơn giản, trực quan, không quá phức tạp để hiểu ngay lần đầu tiên, khác với các thuật toán ví dụ như Artificial Neural network không thể hiện rõ quy luật phân loại. Đồng thời bộ dữ liệu training không nhất thiết phải quá lớn để tiến hành xây dựng mô hình phân tích.
    • Một số thuật toán cây quyết định có khả năng xử lý dữ liệu bị missing và dữ liệu bị lỗi mà không cần áp dụng phương pháp như “imputing missing values” hay loại bỏ. Bên cạnh đó Decision trees ít bị ảnh hưởng bởi các dữ liệu ngoại lệ (outliers)
    • Thuật toán cây quyết định là phương pháp không sử dụng tham số, “nonparametric”, nên không cần phải có các giả định ban đầu về các quy luật phân phối như trong thống kê, và nhờ đó kết quả phân tích có được là khách quan, “tự nhiên” nhất.
    • Thuật toán cây quyết định có thể giúp chúng ta phân loại đối tượng dữ liệu theo biến mục tiêu có nhiều lớp, nhiều nhóm khác nhau (multi-class classification) đặc biệt nếu biến mục tiêu là dạng biến định lượng phức tạp.
    • Thuật toán cây quyết định có thể áp dụng linh hoạt cho các biến target, biến mục tiêu là biến định tính (classification task) ví dụ phân loại khách hàng theo “rủi ro tín dụng” và “không rủi ro tín dụng” như ví dụ ở 2 bài viết trước, và cả định lượng (regression task) ví dụ ước lượng xác suất khách hàng có rủi ro tín dụng
    • Thuật toán cây quyết định mang lại kết quả dự báo có độ chính xác cao, dễ dàng thực hiện, nhanh chóng trong việc huấn luyện, không cần phải chuyển đổi các biến vì kết quả sẽ như nhau với bất kể loại biến dữ liệu biến đổi ra sao.
    • Dựa trên quy luật ra quyết định (Decision rule) để xây dựng nên thuật toán cây quyết định rất dễ diễn giải hay giải thích đến người nghe, người xem – những người muốn hiểu rõ về kết quả phân tích nhưng không có kiến thức gì về khoa học dữ liệu.
    • Thuật toán cây quyết định vẫn nói lên được mối liên hệ giữa các biến, các thuộc tính dữ liệu một cách trực quan nhất mặc dù không thể hiện được rõ mối quan hệ tuyến tính, hay mức độ liên hệ giữa chúng như phương pháp phân tích hồi quy (regression analysis) có được.
    • Ngoài kinh tế, tài chính, thuật toán cây quyết định có thể được ứng dụng trong lĩnh vực y tế, nông nghiệp, sinh học.

    Khuyết điểm:

    • Thuật toán cây quyết định hoạt động hiệu quả trên bộ dữ liệu đơn giản có ít biến dữ liệu liên hệ với nhau, và ngược lại nếu áp dụng cho bộ dữ liệu phức tạp.
    • Cụ thể, thuật toán cây quyết định khi được áp dụng với bộ dữ liệu phức tạp, nhiều biến và thuộc tính khác nhau có thể dẫn đến mô hình bị overfitting, quá khớp với dữ liệu training dẫn đến vấn đề không đưa ra kết quả phân loại chính xác khi áp dụng cho dữ liệu test, và dữ liệu mới.
    • Đối với thuật toán cây quyết định khi có sự thay đổi nhỏ trong bộ dữ liệu có thể gây ảnh hưởng đến cấu trúc của mô hình. Nghĩa là khi chúng ta điều chỉnh dữ liệu, cách thức phân nhánh, ngắt cây sẽ bị thay đổi, có thể dẫn đến kết quả sẽ khác so với ban đầu, phức tạp hơn. Các chuyên gia gọi đây là vấn đề “high variance” – giá trị phương sai cao.
    • Thuật toán cây quyết định chỉ áp dụng cho biến định tính (classification tree) nếu phân loại sai có thể dẫn đến sai lầm nghiêm trọng ví dụ một người có khả năng bị đột quỵ lại được phân loại là không thì vô tính đặt người này vào tình thế nguy hiểm. Còn đối với thuật toán cây quyết định áp dụng cho biến định lượng (regression tree), thì chỉ phân loại đối tượng, hay dự báo theo phạm vi giá trị (range) được tạo ra trước đó, vì vậy đây cũng là một hạn chế khi khả năng có nhiều phạm vi giá trị khác mà thuật toán chưa xét đến.
    • Thuật toán cây quyết định có khả năng “bias” hay thiên vị nếu bộ dữ liệu không được cân bằng. Nói đơn giản, khi bộ dữ liệu được phân ra thành các nhóm theo các đặc trưng khác nhau nào đó, mà số lượng quan sát trong mỗi nhóm là quá chênh lệch hay khác biệt rõ rệt về đặc trưng, lúc này có thể dẫn đến mô hình bị “bias”, phân nhánh đơn giản, chỉ xét đến các giá trị tiêu biểu, và nguy cơ “Underfitting” (không rà soát hết các khả năng phân loại dữ liệu). Tuy nhiên khi mô hình quá phức tạp, mọi biến dữ liệu đều có khả năng phân nhánh và làm cơ sở phân loại các đối tượng dữ liệu, thì lúc này “bias” ở mức thấp nhưng nguy cơ không thể áp dụng được dữ liệu mới.
    • Thuật toán cây quyết định yêu cầu bộ dữ liệu training và test phải được chuẩn bị hoàn hảo, chất lượng tốt phải được cân đối theo các lớp, các nhóm trong biến mục tiêu, ví dụ có sự chênh lệch không quá lớn giữa số lượng đối tượng dữ liệu thuộc lớp A của biến mục tiêu và số lượng đối tượng dữ liệu thuộc lớp B của biến mục tiêu. Ngoài ra biến mục tiêu phải có các giá trị “rời rạc” dễ nhận biết, không được quá đa dạng, và phải cụ thể để quá trình phân loại diễn ra dễ dàng hơn cho thuật toán.
    • Thuật toán cây quyết định được hình thành trên các cách thức phân nhánh tại mỗi một thời điểm bất kỳ, ở một node hay biến dữ liệu bất kỳ và chỉ quan tâm duy nhất vào việc phân nhánh sao cho tối ưu tại thời điểm ấy, chứ không xét đến toàn bộ mô hình phải được thiết lập hiệu quả ra sao. Do đó sẽ có trường hợp các bạn cảm thấy việc phân nhánh dễ dàng, cứ thế tiếp tục cho đến khi không còn đối tượng dữ liệu để phân loại nhưng khi kết thúc nhìn lại sao mô hình lại quá cồng kềnh, phức tạp. Lúc này thì không thể tìm ra nguyên nhân. Đây cũng chính là khuyết điểm nữa của Decision trees.
    • Thuật toán cây quyết định không “hỗ trợ” kỹ thuật hay khả năng “truy vấn ngược” mà chỉ phân nhánh liên tục dựa trên các công thức phân nhánh cho đến khi thấy được kết quả sau cùng nên chúng ta khó phát hiện được các lỗi ở đâu nếu có sai sót.

    Vẫn còn rất nhiều ưu điểm khuyết điểm khác mà chúng tôi không thể trình bày hết trong bài viết này. Các bạn nếu muốn tìm hiểu thêm thì đơn giản là hãy thử thực hành xây dựng mô hình Decision trees cho các bộ dữ liệu khác nhau và tiến hành kiểm tra, đánh giá, các bạn sẽ thấy được vấn đề.

    Tiếp theo chúng ta cùng đến với phần quan trọng khác, là phương pháp và là mảng kiến thức không thể thiếu khi xây dựng thuật toán cây quyết định. Đó chính là Stopping Criteria, yếu tố ngừng phân nhánh với Pruning method, phương pháp “ngắt cành” sao cho thuật toán Decision trees mang lại kết quả phân loại tối ưu hơn, mô hình hiệu quả hơn.

    Stopping criteria (Pruning method) Giải thích lại tại sao phải áp dụng 2 phương pháp này.

    Nếu xây dựng thuật toán cây quyết định trên bộ dữ liệu phức tạp, và sử dụng các công thức như Gini index, hay Entropy mà chúng tôi đã đề cập ở bài viết trước, và ngay trên phần các khuyết điểm thì cây quyết định luôn hướng đến kết quả phân loại sau cùng, phân loại hết thì mới ngưng, cố gắng tìm ra các node, các tập con “pure” nhất đến khi nào không thể phân loại được tiếp. Nhưng điều này sẽ dẫn đến khả năng cao thuật toán đang cố gắng “thỏa mãn” bộ dữ liệu training, “follow” đến từng biến và thuộc tính trong dữ liệu training, xem xét tất cả mối liên hệ giữa chúng và biến mục tiêu, do đó khi áp dụng cho bộ dữ liệu test hay “unseen data”, dữ liệu mà mô hình không thể thấy được giá trị của biến mục tiêu, mô hình sẽ không thể phân loại chính xác. Thuật ngữ quen thuộc có thể coi là “Overfitting”, mô hình được xây dựng quá khớp với dữ liệu training.

    Ngược lại trong trường hợp bộ dữ liệu không cân bằng như đã giải thích ở phần khuyết điểm, hay một số nguyên nhân khác khiến cho mô hình Decision trees quá đơn giản, phân nhánh ít, chiều sâu của cây giảm thì nguy cơ cao mô hình bị “Underfitting” là khá cao, nghĩa là mô hình có thể đã bỏ qua một số khả năng, quy luật phân loại đối tượng dữ liệu theo biến mục tiêu mà đáng lẽ ra phải được khai phá. Vì vậy, chúng ta không thể thực hiện xây dựng mô hình Decision trees một cách vội vã, hoặc tùy tiện phân nhánh hay ngắt cành với mong muốn có được kết quả phân tích như mong đợi. Việc hạn chế các vấn đề “Overfitting” và “Underfitting” là công việc mà có lẽ mỗi chuyên gia phân tích dữ liệu phải quan tâm khi tiến hành thiết lập mô hình Decision trees

    Cần lưu ý rằng thứ nhất mục đích của quá trình phân tích dữ liệu hay huấn luyện mô hình phân tích là để làm sao khi áp dụng cho bộ dữ liệu thực tế chúng đem lại kết quả chính xác nhất chứ không phải tập trung vào dữ liệu training, thứ hai là không phải phương pháp Stopping criteria hay Pruning lúc nào cũng đem lại hiệu quả, do đó bất kể mô hình nào thì chúng ta cũng phải sử dụng các phương pháp đánh giá (Classification evaluation method) để kiểm tra và đưa ra những điều chỉnh kịp thời.

    Lưu ý trong bài viết này chúng tôi gộp chung Stopping criteria hay Stopping rules với Pruning method để diễn giải tốt hơn, và trong thực tế, ở một số giáo trình về Data mining, các tác giả – là những nhà phân tích dữ liệu, thường đưa Pruning method vào trong Stopping criteria vì cho rằng chúng có cùng một đích khi cả 2 phương pháp đều hướng đến tối ưu mô hình cây quyết định. Tuy nhiên cũng có một số giáo trình tách riêng 2 thuật ngữ này để giải thích khi cho rằng Stopping criteria áp dụng trước và trong khi xây dựng mô hình còn Pruning thì áp dụng sau khi đã thiết lập xong mô hình. Cả 2 hướng tiếp cận đều đúng, nên việc trình bày như thế nào không quan trọng bằng cách chúng ta hiểu được vấn đề như thế nào, cần dùng phương pháp nào cho mô hình.

    Phương pháp Stopping criteria có thể kể đến đơn giản như các phương pháp hạn chế kích thước hay chiều sâu của cây quyết định bao gồm giới hạn, hay cung cấp số lượng tập con, hay số lượng mẫu (sample) tối thiểu cho một lần phân nhánh từ một node, giới hạn chiều sâu tối đa của cây quyết định, giới hạn tối đa số node cuối cùng, những node không có phân nhánh tiếp theo (terminal node) hay giới hạn tối đa số thuộc tính được dùng để phân nhánh.

    Giới thiệu đến các bạn một số nguyên tắc ngừng phân nhánh thông dụng được tham khảo từ một số tài liệu Data mining:

    • Khi tất cả các quan sát đều nằm trong một leaf node và cùng mang một giá trị bất kì của biến mục tiêu.
    • Khi mô hình cây quyết định đạt chiều sâu tối đa đã được quy định trước đó (theo kinh nghiệm, kiến thức, hay các phương pháp tính toán mà các chuyên gia có thể sử dụng)
    • Số lượng các trường hợp (số quan sát) xuất hiện trong các terminal leaf (các node thể hiện kết quả phân loại), thấp hơn số lượng các trường hợp tối thiểu trong node phân nhánh (parent node) được quy định từ trước. Nghĩa là khi xuất hiện trường hợp thấp hơn thì ngừng phân nhánh.
    • Số lượng các quan sát ở các terminal leaf thấp hơn số lượng tối thiểu được quy định trước đó, hoặc không vượt quá một tỷ lệ nhất định theo kích thước của mỗi class – tổng số quan sát trong class đó. Nghĩa là khi xuất hiện trường hợp thấp hơn thì ngừng phân nhánh.
    • Khi một node được phân nhánh, số lượng các quan sát trong một hoặc nhiều node con (child nodes) ít hơn số lượng các quan sát tối thiểu đặt ra ban đầu. Nghĩa là khi xuất hiện trường hợp thấp hơn thì ngừng phân nhánh.
    • Số lượng các thuộc tính dữ liệu, các giá trị của biến, của node phân nhánh được dùng để xác định cách thức phân nhánh đạt giới hạn ban đầu, đạt tối đa.

    Các nguyên tắc Stopping trên có thể khiến các bạn khó hiểu, nhưng đều hướng đến yêu cầu xác định trước một ngưỡng giá trị nào đó (threshold), và khi các node, các phân nhánh đạt ngưỡng giá trị này thì cây quyết định sẽ dừng phát triển thêm. Tóm lại chúng ta có thể thiết lập các ngưỡng giá trị và lấy đó làm cơ sở để Stopping:

    • Tối thiểu kích thước mẫu hay số lượng quan sát có trong node phân nhánh.
    • Tối thiểu kích thước mẫu hay số lượng quan sát có trong leaf node
    • Tối đa số lượng thuộc tính dùng để phân nhánh
    • Tối đa chiều sâu của cây quyết định

    Tiếp theo về phương pháp Pruning. Pruning là phương pháp giảm kích thước của cây quyết định bằng cách giảm các “section”, các phần không hợp lý trong mô hình cây quyết định, giảm tính phức tạp của quy luật phân loại được khai phá. Pruning thì có 2 phương pháp chính là Pre-pruning (ngắt cành trước khi cây quyết định được hoàn thành, còn gọi là early-stopping) và Post-pruning (ngắt cành sau khi mô hình cây quyết định được hoàn thành). Pre-pruning hiểu đơn giản là ngừng phân nhánh tiếp cho cây quyết định khi nhận thấy thông tin không còn đáng tin cậy, còn Post – pruning là loại bỏ những leaf node, những phân nhánh không cần thiết sau khi thiết lập xong mô hình, để tối ưu hiệu quả cho mô hình cho đến khi không thể tối ưu hơn thì ngừng việc loại bỏ.

    Nguyên nhân tại sao lại xác định được ngưỡng giá trị như vậy thì đó còn phụ thuộc vào nhiều yếu tố từ các phương pháp tính toán, từ kinh nghiệm của các nhà phân tích có được.

    Phương pháp Stopping có thể làm giảm hiệu suất của cây quyết định mặc dù nó cố gắng hạn chế khả năng overfitting, nhưng vẫn có nguy cơ underfitting như ví dụ ở trên, khi cây quyết định phân nhánh quá đơn giản. Pruning là phương pháp khá linh hoạt nó cho phép ngắt cây, dừng phân nhánh trong lúc thực hiện xây dựng cây quyết định (gần giống nguyên lý hoạt động của Stopping criteria) hoặc sau khi xây dựng xong cây quyết định như một cách thức “tỉa, chỉnh sửa lại cành”.

    Đầu tiên là phương pháp Pre-pruning, tối ưu cây quyết định trước nó được hoàn thành. Nguyên tắc để áp dụng Pre-pruning như sau:

    • Ngừng phân nhánh nếu tất cả các quan sát nằm trong cùng một phân lớp
    • Ngừng phân nhánh nếu tất cả các giá trị của biến dữ liệu là như nhau

    Một số quy tắc “khắt khe” hơn:

    • Ngừng phân nhánh nếu số quan sát trong node thấp hơn giá trị tối thiểu, ngưỡng xác định trước đó (giống stopping rule)
    • Ngừng phân nhánh nếu node không cải thiện mức độ đồng nhất lấy kết quả từ các công thức như Gini index hay Entropy mà chúng tôi giới thiệu ở các bài viết trước.
    • Ngừng phân nhánh nếu sai số tổng quát (Generalized errors) đã thấp hơn ngưỡng giá trị cho trước. Generalized errors là giá trị được ước tính từ kết quả kiểm thử mô hình so với kết quả từ quá trình huấn luyện.

    Về phương pháp Post – pruning, tức phân nhánh sau khi cây quyết định được hình thành, và chọn ra những phần (subtrees) trên mô hình để tiến hành điều chỉnh. Cụ thể phương pháp pruning bao gồm các bước sau:

    1. Xây dựng cây quyết định hoàn chỉnh cho bộ dữ liệu training, phân loại hết các đối tượng trong tập dữ liệu này theo biến mục tiêu đã cho.
    2. Ước tính độ hiệu quả của cây quyết định lúc này sử dụng các phương pháp đánh giá mô hình phân loại hay những phương pháp khác.
    3. Chọn ra các subtree không hiệu quả và xác định phương thức điều chỉnh “subtree raising” hay “subtree replacement”.
    4. Sử dụng các phương pháp ước tính độ hiệu quả kết hợp với các phương pháp ở bước 2 để đánh giá mô hình sau khi điều chỉnh, đây chính là cơ sở để xem xét liệu pruning có hiệu quả hay không. Lưu ý các phương pháp đánh giá ở bước này khác với bước 2.
    5. Tiếp tục review kết quả và điều chỉnh cho đến khi mức độ hiệu quả được ước tính là cao nhất.

    Xét về cách thức điều chỉnh thì Post-pruning có 2 loại:

      Subtree replacement: còn gọi là phương pháp bottom-up, thu gọn cây quyết định từ dưới lên tức là loại bỏ hay gộp chung một phần các node và phân nhánh lại thành một nhánh duy nhất nếu Generalized error được cải thiện, và nhãn của phân nhánh này sẽ là giá trị hay thuộc tính mà nhiều quan sát có chung nhất.

    Tóm lại đơn giản là subtree replacement tức là các phương pháp rút gọn mô hình cây quyết định theo hướng từ dưới lên, còn subtree raising là các phương pháp rút gọn mô hình cây quyết định theo hướng từ trên xuống.

    • Generalized errors, sai sót tổng quát, là giá trị được ước tính từ kết quả kiểm thử mô hình so với kết quả từ quá trình huấn luyện. Mô hình cây quyết định sau khi pruning có Generalized errors càng thấp chứng tỏ phương pháp pruning hiệu quả, và mô hình này khả năng sẽ được chọn để phân loại cho dữ liệu thật.
    • Resubstitution errors là phương pháp đánh giá xem bộ dữ liệu training có đại diện tốt cho tổng thể dữ liệu hay không dựa trên mô hình cây quyết định đã được xây dựng. Resubstitution errors là cơ sở để tính toán và ước lượng Generalized errors, tương tự nếu chỉ số này thấp thì pruning càng thể hiện độ hiệu quả. Generalized errors xét trên bộ dữ liệu test, và Resubstitution errors xét trên dữ liệu training.
    • Phương pháp Occam’s Razor, dựa trên cơ sở mô hình nào ít phức tạp sẽ tốt hơn sẽ ít bị overfitting, là phương pháp chọn ra các mô hình nào đơn giản hơn. Trong phương pháp này 2 mô hình cây quyết định với cùng Generalized errors, thì mô hình nào đơn giản hơn sẽ được chọn
    • Optimistic approach: là phương pháp ước lượng Generalized errors bằng cách lấy thẳng giá trị của Resubstitution errors của dữ liệu training làm giá trị ước lượng. Đây là hướng tiếp cận lạc quan cho rằng tỷ lệ sai sót của mô hình áp dụng cho dữ liệu training sẽ giống như khi áp dụng cho dữ liệu test.
    • Pessimistic approach: là hướng tiếp cận bi quan, cho rằng nếu chỉ dựa trên việc áp dụng dữ liệu training thì không đủ cơ sở để đánh giá hiệu quả của toàn bộ mô hình. Công thức như sau

    Với e(T,S) là Resubstitution errors và e'(T,S) là Generalized errors, leaves(T) là số node lá có trong mô hình cây quyết định, S là kích thước mẫu.

    • Reduce Error pruning (REP): sử dụng phương pháp validation data set để ước lượng Generalized errors tức chia tập dữ liệu training ra thành 2 phần, một phần để huấn luyện mô hình và một phần để ước lượng sai sót.
    • Minimum description length (MDL) dựa trên học thuyết về thông tin Information theory. Ví dụ cho các bạn dễ hiểu giả sử có 2 người A, B được cung cấp một bộ dữ liệu có các giá trị và biến đã biết trước. Người A biết rõ mỗi đối tượng trong tập dữ liệu được phân loại ra sao trong khi người B thì không biết. Người B yêu cầu người A truyền đạt lại thông tin cho mình. Người A lúc này sẽ xây dựng một cây quyết định mà thể hiện rõ nhất mối quan hệ giữa biến mục tiêu và các biến đầu vào. Giả sử mô hình lúc này được mã hóa để truyền đạt thông tin đến người, và thông tin lúc này là “bit”. Nếu mô hình chính xác 100% thì cost truyền đạt thông tin sẽ bằng cost mã hóa. Công thức tổng quát như sau:

    Cost chính là số lượng bit cần để mã hóa, giá trị càng thấp sẽ càng tốt. Cost(data/model) là số lượng thông tin cần để mã hóa các sai sót của mô hình, Cost(model) là số lượng thông tin cần để mã hóa tất cả các node, và kể cả điều kiện phân nhánh.

    Như vậy đến đây là kết thúc bài viết phần 4 về Decision trees, ở bài viết cuối cùng phần 5 chúng ta sẽ cùng đi qua cách thức triển khai thuật toán cây quyết định cho biến mục tiêu là biến định lượng liên tục (Regression trees) và Decision rules cơ sở diễn giải mô hình cây quyết định.

    Về chúng tôi, công ty BigDataUni với chuyên môn và kinh nghiệm trong lĩnh vực khai thác dữ liệu sẵn sàng hỗ trợ các công ty đối tác trong việc xây dựng và quản lý hệ thống dữ liệu một cách hợp lý, tối ưu nhất để hỗ trợ cho việc phân tích, khai thác dữ liệu và đưa ra các giải pháp. Các dịch vụ của chúng tôi bao gồm “Tư vấn và xây dựng hệ thống dữ liệu”, “Khai thác dữ liệu dựa trên các mô hình thuật toán”, “Xây dựng các chiến lược phát triển thị trường, chiến lược cạnh tranh”.

    --- Bài cũ hơn ---

  • Mặt Yếu Của Cây Quyết Định Là Gì?
  • Cây Quyết Định Là Gì? Ví Dụ Về Cây Quyết Định
  • Cây Quyết Định (Decision Tree) Là Gì? Ví Dụ Về Cây Quyết Định
  • Những Cơ Sở Để Ra Quyết Định
  • Kê Biên, Xử Lý Tài Sản Là Quyền Sử Dụng Đất
  • Cây Quyết Định (Decision Tree) Là Gì? Tìm Hiểu Thuật Toán Id3

    --- Bài mới hơn ---

  • Cách Khôn Ngoan Để Bạn Ra Quyết Định Táo Bạo?
  • Con Người Của Những Quyết Định Táo Bạo
  • Muốn Có Thành Công Đỉnh Cao, Phải Dám Thay Đổi Táo Bạo: Trước Khi Bước Ra Khỏi Vùng An Toàn, Nhất Định Bạn Phải Có 7 “vũ Khí” Lợi Hại Này Để Đạt Được Mọi Mục Tiêu
  • Đọc Truyện Yêu Em Mất Rồi!
  • Lực Lượng Sản Xuất Là Gì? Quan Hệ Sản Xuất Là Gì? Lực Lượng Sản Xuất Và Quan Hệ Sản Xuất Có Mối Quan Hệ Như Thế Nào? Từ Việc Hiểu Biết Mối Quan Hệ Đó Có Thể Rút Ra Ý Nghĩa Phương Pháp Luận Nào? Cho Ví
  • Cây quyết định là gì?

    DT được áp dụng vào cả 2 bài toán: Phân loại ( Classification) và Hồi quy ( Regression). Tuy nhiên bài toán phân loại được sử dụng nhiều hơn.

    Có nhiều thuật toán để xây dựng DT, trong bài này ta tìm hiểu một thuật toán nổi tiếng và cơ bản nhất của DT là thuật toán ID3.

    Thuật toán ID3

    Iterative Dichotomiser 3 (ID3) là thuật toán nổi tiếng để xây dựng Decision Tree, áp dụng cho bài toán Phân loại ( Classification) mà tất các các thuộc tính để ở dạng category.

    Để dễ hiểu ta cùng tìm hiểu thuật toán này qua ví dụ.

    Ta có tập Training Data như bảng dưới:

    Data của ta có 4 thuộc tính: Engine, Type, Color, 4WD.

    Để tính toán được DT, ta cần phân chia các thuộc tính vào các node đánh giá. Vậy làm sao để biết được thuộc tính nào quan trọng, nên đặt ở gốc, thuộc tính nào ở nhánh…

    Trong thuật toán ID3, các thuộc tính được đánh giá dựa trên Hàm số Entropy, hàm số phổ biến trong toán học xác suất.

    Hàm số Entropy

    Cho một phân phối xác suất của một biến rời rạc $x$ có thể nhận $n$ giá trị khác nhau $x_1, x_2, dots, x_n$. Giả sử rằng xác suất để $x$ nhận các giá trị này là $p_i = p(x = x_i)$

    Ký hiệu phân phối này là $mathbf{p} = (p_1, p_2, dots, p_n)$.

    Entropy của phân phối này là:

    $$ H(mathbf{p}) = -sum_{i=1}^n p_i log_2(p_i)quadquad $$

    Hàm Entropy được biểu diễn dưới dạng đồ thị như sau:

    Từ đồ thị ta thấy, hàm Entropy sẽ đạt giá trị nhỏ nhất nếu có một giá trị $p_i = 1$, đạt giá trị lớn nhất nếu tất cả các $p_i$ bằng nhau.

    Hàm Entropy càng lớn thì độ ngẫu nhiên của các biến rời rạc càng cao (càng không tinh khiết).

    Với cây quyết định, ta cần tạo cây như thế nào để cho ta nhiều thông tin nhất, tức là Entropy là cao nhất.

    Information Gain

    Bài toán của ta trở thành, tại mỗi tầng của cây, cần chọn thuộc tính nào để độ giảm Entropy là thấp nhất.

    Người ta có khái niệm Information Gain được tính bằng $$ Gain(S,f) = H(S) – H(f,S) $$ trong đó:

    $H({S})$ là Entropy tổng của toàn bộ tập data set $S$.

    $H(f, S)$ là Entropy được tính trên thuộc tính $f$.

    Do $H({S})$ là không đổi với mỗi tầng, ta chọn thuộc tính $f$ có Entropy nhỏ nhất để thu được $Gain(S,f)$ lớn nhất.

    Tính Entropy của các thuộc tính

    Xét thuộc tính Engine

    Thuộc tính này có thể nhận 1 trong 2 giá trị 1000cc, 2000cc, tương ứng với 2 child node.

    Gọi tập hợp các điểm trong mỗi child node này lần lượt là $S_1$, $S_2$.

    Sắp xếp lại theo thuộc tính Engine ta có 2 bảng nhỏ.

    Engine 1000cc ($S_1$)

    Engine 2000cc ($S_2$)

    Child node ứng với Engine 1000cc sẽ có Entropy = 0 do tất cả các giá trị đều là Yes.

    Ta chỉ việc tính Entropy với Engine 2000cc. Sau đó tính Entropy trung bình.

    Cụ thể như sau:

    $$ begin{aligned} H(S_1) &=& 0 cr H(S_2) &=& -frac{2}{4}mathcal{log}_2left(frac{2}{4}right) – frac{2}{4}mathcal{log}_2left(frac{2}{4}right) = 1 cr H({engine}, S) &=& frac{4}{8}H(S_1) + frac{4}{8}H(S_2) = 0.5 end{aligned} $$

    Xét thuộc tính Type

    Thuộc tính này có thể nhận 1 trong 3 giá trị SUV, Senda, Sport tương ứng với 3 child node.

    Gọi tập hợp các điểm trong mỗi child node này lần lượt là $S_u$, $S_e$, $S_p$.

    Sắp xếp lại theo thuộc tính Type ta có 3 bảng nhỏ.

    Type SUV ($S_u$)

    Type Sedan ($S_e$)

    Type Sport ($S_p$)

    Tương tự, ta lần lượt tính Entropy như bên dưới:

    $$ begin{aligned} H(S_u) &=& 0 cr H(S_e) &=& -frac{2}{3}mathcal{log}_2left(frac{2}{3}right) – frac{1}{3}mathcal{log}_2left(frac{1}{3}right) approx 0.918 cr H(S_p) &=& -frac{1}{2}mathcal{log}_2left(frac{1}{2}right) – frac{1}{2}mathcal{log}_2left(frac{1}{2}right) = 1 cr H({type}, S) &=& frac{3}{8}H(S_u) + frac{3}{8}H(S_e) + frac{2}{8}H(S_p) approx 0.594 end{aligned} $$

    Xét thuộc tính Color

    Thuộc tính này có thể nhận 1 trong 2 giá trị Silver, Blue tương ứng với 2 child node.

    Gọi tập hợp các điểm trong mỗi child node này lần lượt là $S_s$, $S_b$.

    Sắp xếp lại theo thuộc tính Color ta có 2 bảng nhỏ.

    Color Silver ($S_s$)

    Color Blue ($S_b$)

    Dễ thấy, 2 giá trị Silver và Blue đều có tỉ lệ Yes, No như nhau là 3414.

    Do đó ta tính luôn Entropy trung bình:

    $$ begin{aligned} H({color}, S) &=& -frac{3}{4}mathcal{log}_2left(frac{3}{4}right) – frac{1}{4}mathcal{log}_2left(frac{1}{4}right) approx 0.811 end{aligned} $$

    Xét thuộc tính 4WD

    Thuộc tính này có thể nhận 1 trong 2 giá trị Yes, No tương ứng với 2 child node.

    Gọi tập hợp các điểm trong mỗi child node này lần lượt là $S_y$, $S_n$.

    Sắp xếp lại theo thuộc tính 4WD ta có 2 bảng nhỏ.

    4WD Yes ($S_y$)

    4WD No ($S_n$)

    Tương tự Color, ta tính Entropy trung bình:

    $$ begin{aligned} H({4wd}, S) &=& -frac{3}{4}mathcal{log}_2left(frac{3}{4}right) – frac{1}{4}mathcal{log}_2left(frac{1}{4}right) approx 0.811 end{aligned} $$

    Chọn thuộc tính có Entropy nhỏ nhất

    Sau khi tính Entropy trung bình của 4 thuộc tính ta thu được:

    $H({engine}, S) = 0.5$

    $H({type}, S) approx 0.594$

    $H({color}, S) approx 0.811$

    $H({4wd}, S) approx 0.811$

    Thuộc tính Engine có giá trị Entropy nhỏ nhất nên ta chọn là node đánh giá đầu tiên.

    Với Engine 1000cc, tất cả các data đều có giá trị Yes, vì vậy ta thu được node là Yes ở nhánh 1000cc.

    Ta tiếp tục tính cho nhánh Engine 2000cc với tập data nhỏ hơn là

    Tương tự ta lần lượt tính Entropy cho 3 thuộc tính là: Type, Color, 4WD

    Với thuộc tính Type:

    $$ begin{aligned} H(S_u) &=& 0 cr H(S_e) &=& 0 cr H(S_p) &=& -frac{1}{2}mathcal{log}_2left(frac{1}{2}right) – frac{1}{2}mathcal{log}_2left(frac{1}{2}right) = 1 cr H({type}, S) &=& frac{1}{4}H(S_u) + frac{1}{4}H(S_e) + frac{2}{4}H(S_p) = 0.5 end{aligned} $$

    Với thuộc tính Color:

    Do 2 giá trị Silver và Blue có cùng tỉ lệ Yes, No là 1212.

    $$ begin{aligned} H({color}, S) &=& -frac{1}{2}mathcal{log}_2left(frac{1}{2}right) – frac{1}{2}mathcal{log}_2left(frac{1}{2}right) = 1 end{aligned} $$

    Với thuộc tính 4WD:

    $$ begin{aligned} H(S_y) &=& -frac{2}{3}mathcal{log}_2left(frac{2}{3}right) – frac{1}{3}mathcal{log}_2left(frac{1}{3}right) approx 0.918 cr H(S_n) &=& 0 cr H({4wd}, S) &=& frac{3}{4}H(S_y) + frac{1}{4}H(S_n) approx 0.688 end{aligned} $$

    Vậy ta chọn Type là node đánh giá tiếp theo.

    Với trường hợp Type là SUV hoặc Sedan, ta có ngay node lá vì chỉ có một kết quả.

    Với trường hợp Type là Sport, do thuộc tính Color là giống nhau với tất cả data, ta chọn node đánh giá tiếp theo là 4WD.

    Kết quả

    Ta thu được Decision Tree như hình bên dưới.

    Kiểm tra (Validation)

    Ta sẽ tiến hành kiểm tra mô hình DT ta vừa tạo được bằng tập Test Data như bên dưới:

    Ta có bảng mapping đánh giá kết quả như sau:

    Dựa vào DT ta vừa tạo được, ta tiến hành đánh giá như sau:

    Các thông số áp dụng để đánh giá được tính như sau:

    $$ begin{aligned} Accuracy &=& frac{TP+TN}{TP+FP+TN+FN} = 0.5 cr Recall &=& frac{TP}{TP+FN} = 0.5 cr Precision &=& frac{TP}{TP+FP} = 1 cr F-Measure &=& frac{2 times Recall times Precision}{Recall + Precision} approx 0.667 end{aligned} $$

    Nhìn chung Decision Tree tìm được có độ chính xác không cao khi chạy thử với Test Data.

    Nguyên nhân chính có lẽ là do tập Training Data quá ít.

    --- Bài cũ hơn ---

  • Cách Tạo Test Case Sử Dụng Kỹ Thuật Bảng Quyết Định
  • Kỹ Thuật Kiểm Thử Bảng Quyết Định
  • Quan Niệm Của Hồ Chí Minh Về Bản Chất Giai Cấp Công Nhân Và Nền Tảng Tư Tưởng Của Đảng Cộng Sản Việt Nam
  • Về Bản Chất Giai Cấp Công Nhân Của Nhà Nước
  • Tăng Cường Bản Chất Giai Cấp Công Nhân Cho Quân Đội Nhân Dân Việt Nam
  • Cây Quyết Định Và Giải Thuật Id3

    --- Bài mới hơn ---

  • Hành Vi Mua Của Khách Hàng
  • 3 Cách Tác Động Đến Quyết Định Mua Hàng Của Khách Hàng
  • Neo Là Gì? Tìm Hiểu Về Đồng Tiền Ảo Neo Coin Là Gì? Blogtienao.com
  • Thả Neo (Anchoring) Trong Kinh Tế Là Gì? Hiệu Ứng Mỏ Neo Trong Kinh Tế
  • Neo Là Gì? Tạo Ví Và Mua Bán Đồng Tiền Neo Coin Ở Đâu? Có Nên Đầu Tư?
  • Giới thiệu về cây quyết định

    Trong lý thuyết quyết định (chẳng hạn quản lí rủi ro), một cây quyết định (Decision Tree) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên). Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây.

    Trong lĩnh vực máy học (Learning Machine), cây quyết định là một kiểu mô hình dự báo (Predictive Model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (Internal Node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật máy học dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định.

    Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách đệ qui cho mỗi tập con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (Random Forest) sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại.

    Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện.

    Cây quyết định có thể được mô tả như là sự kết hợp của các kỹ thuật toán học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu cho trước.

    Dữ liệu được cho dưới dạng các bản ghi có dạng:

    (x, y) = (x1, x2, x3…, xk, y)

    Biến phụ thuộc (Dependant Variable) y là biến mà chúng ta cần tìm hiểu, phân loại hay tổng quát hóa. x1, x2, x3 … là các biến sẽ giúp ta thực hiện công việc đó

    Giới thiệu giải thuật ID3

    Giải thuật ID3 (gọi tắt là ID3) Được phát triển đồng thời bởi Quinlan trong AI và Breiman, Friedman, Olsen và Stone trong thống kê. ID3 là một giải thuật học đơn giản nhưng tỏ ra thành công trong nhiều lĩnh vực. ID3 là một giải thuật hay vì cách biểu diễn tri thức học được của nó, tiếp cận của nó trong việc quản lý tính phức tạp, heuristic của nó dùng cho việc chọn lựa các khái niệm ứng viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu.

    ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree). Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó.

    Như vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví dụ rèn luyện (training example) hay còn gọi là dữ liệu rèn luyện (training data).

    Input: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mô tả một tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó.

    Output: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong tương lai.

    Giải thuật ID3 xây dựng cây quyết định được trình bày như sau:

    thuộc tính quyết định “tốt nhất” cho nút kế tiếp3. Với mỗi giá trị của A, tạo nhánh con mới của 4. Phân loại các mẫu huấn luyện cho các nút lá

    2. Gán A là thuộc tính quyết định cho

    5. Nếu các mẫu huấn luyện được phân loại hoàn toàn thì NGƯNG,

    Ngược lại, lặp với các nút lá mới.

    Tri thức dạng luật

      Tri thức được biểu diễn dưới dạng luật:

    IF Điều kiện 1 ^ Điều kiện 2… THEN Kết luận

    • Dễ hiểu với con người, được sử dụng chủ yếu trong các

      hệ chuyên gia

    • Rút luật từ cây quyết định: đi từ nút gốc đến nút lá, lấy

      các phép thử làm tiền đề và phân loại của nút lá làm kết quả

    Lưu ý: Một phiên bản khác của thuật toán ID3 sử dụng Informatic Gain thay cho entropy để chọn thuộc tính quyết định. Công thức tính Informatic Gain như sau:

    Gain(A) = Entropy(S) – Entropy(A)

    Trong đó: S là tập mẫu và A là một thuộc tính. Entropy(S): độ hỗn loạn của tập S.

    Entropy(A): độ hỗn loạn trung bình của thuộc tính A (cách tính như trên)

    --- Bài cũ hơn ---

  • Học Máy Với Cây Quyết Định
  • Giới Thiệu Về Học Máy Với Cây Quyết Định
  • Định Nghĩa Đơn Giản Về Chiến Lược Và Chiến Thuật
  • Ba Cấp Độ Của Chiến Lược: Khi Quá Trình Quyết Định Kết Quả
  • Một Số Khái Niệm Chiến Lược & Thành Phần Quản Trị Chiến Lược
  • Mẫu Bảng Lương Quyết Định 48

    --- Bài mới hơn ---

  • Thủ Tục Điều Chỉnh Mức Lương Đóng Bhxh, Bhyt, Bhtn Bắt Buộc
  • Quyết Định Nâng Bậc Lương
  • Quyết Định Nâng Lương Cho Cán Bộ Công Chức
  • Quy Định Về Nâng Bậc Lương Như Thế Nào Là Đúng Pháp Luật?
  • Điều Kiện Để Đưa Chi Phí Tiền Lương Tháng 13 Vào Chi Phí Hợp Lệ
  • Mẫu Bảng Lương Quyết Định 48, Mẫu Bảng Lương Theo Quyết Định 19, Quyết Định Ban Hành Thang Bảng Lương, Quyết Định Ban Hành Thang Bảng Lương 2022, Quyết Định Ban Hành Hệ Thống Thang Bảng Lương, Quyết Định Ban Hành Thang Bảng Lương 2022, Mẫu Quyết Định Ban Hành Thang Bảng Lương 2022, Quyết Định Ban Hành Hệ Thống Thang Bảng Lương 2022, Quyết Định Ban Hành Hệ Thống Thang Bảng Lương 2022, Quyết Định Ban Hành Hệ Thống Thang Bảng Lương 2022, Quy Định Hệ Thống Thang Lương Bảng Lương Và Chế Độ Phụ Cấp Lương Trong Các Công Ty Nhà Nước, Tài Liệu Cân Băng Định Lượng Băng Tiếng Việt, Mẫu Bảng Quyết Toán Khối Lượng A B, Bang Tinh Gia Tri Khoi Luong Quyet Toan A-b, Mẫu Bảng Quyết Toán Khối Lượng Công Trình, Cân Băng Tải Định Lượng, Quy Định 7 Bảng Lương, Cân Băng Định Lượng, Bảng Lương Số 4 Nghị Định 204, Bảng Lương Số 5 Nghị Định 204, Định Lượng Protein Huyết Thanh Bằng Khúc Xạ Kế, Mẫu Bảng Xác Định Khối Lượng Công Việc Hoàn Thành, Mẫu Bảng Xác Định Giá Trị Khối Lượng Công Việc Hoàn Thành, Quyết Định Lên Lương, Quyết Định Hệ Số Lương, Quyết Định Hạ Bậc Lương, Quyết Định Lương, Mẫu Quyết Định Kỷ Luật Hạ Bậc Lương, Mẫu Văn Bản Quyết Định Tăng Lương, Quyet Dinh Nâng Lương Cho Cán Bộ , Quyết Định Kỷ Luật Hạ Bậc Lương, Quyết Định Ban Hành Quy Chế Lương, Mẫu Đơn Quyết Định Tăng Lương, Quyết Định Hệ Số Lương Công An, Quyết Định Bổ Nhiệm Và Xếp Lương, Quyết Định Tăng Lương, Quyết Định Nâng Bậc Lương, Quyết Định Nâng Lương, Quyết Định Giảm Lương, Có Quyết Định Hưởng Lương Hưu, Xây Dựng Phương Pháp Định Lượng Rotundin Trong Củ Bình Vôi Tươi Bằng Sắc Ký Lớp Mỏng Kết Hợp Đo Mật, Xây Dựng Phương Pháp Định Lượng Rotundin Trong Củ Bình Vôi Tươi Bằng Sắc Ký Lớp Mỏng Kết Hợp Đo Mật , Yếu Tố Quyết Định Số Lượng Cung Hàng Hóa, Quyết Định Bổ Nhiệm Ngạch Và Xếp Lương, Biên Bản Quyết Định Tăng Lương, Yếu Tố Nào Quyết Định Số Lượng Cung Hàng Hóa, Quyết Định Số 51 Về Dán Nhãn Năng Lượng, Mẫu Quyết Định Bổ Nhiệm Và Tăng Lương, Mẫu Công Văn Quyết Định Tăng Lương, Quyết Định Ban Hành Sổ Tay Chất Lượng, Quyết Định Điều Chỉnh Lương, Mẫu Chứng Từ Tiền Lương Theo Quyết Định 48, Quyết Định Kỷ Luật Kéo Dài Thời Hạn Nâng Lương, Quyết Định Lương Tối Thiểu Vùng 2022, Quyết Định Nghỉ Việc Không Lương, Quyết Định Nâng Lương Trước Thời Hạn, Quyết Định Nâng Lương Cho Cán Bộ Công Chức, Quyết Định Ban Hành Mục Tiêu Chất Lượng, Mẫu Chứng Từ Tiền Lương Theo Quyết Định 15, Bảng Xác Định Giá Trị Khối Lượng Công Việc Phát Sinh Ngoài Hợp Đồng Đề Nghị Thanh Toán., Quyết Định Ban Hành Chính Sách Chất Lượng, Quyết Định Nghỉ Việc Không Hưởng Lương, Quyết Định Về Việc Nghỉ Không Hưởng Lương, Quyết Định Ban Hành Hệ Thống Quản Lý Chất Lượng, Quy ước Mã Số Của Hệ Thống Thang Lương Bảng Lương, Quyết Định Về Việc Ban Hành Quy Chế Nâng Bậc Lương Trước Thời Hạn, Khi Sanji Quyết Định Rời Băng, Mẫu Văn Bản Quyết Định Bằng Tiếng Anh, Quyết Định Bằng Tiếng Anh, Mẫu Quyết Định Bằng Tiếng Anh, Các Mẫu Quyết Định Bằng Tiếng Anh, Mẫu Bảng Xác Định Giá Trị Khối Lượng Công Việc Hoàn Thành Theo Hợp Đồng Đề Nghị Thanh Toán, Quyết Định Bảng Giá Đất Tphcm 2022, Quyết Định Bảng Giá Đất Đồng Nai 2022, Quyết Định Sa Thải Bằng Tiếng Anh, Quyết Định Bổ Nhiệm Cán Bộ Bằng Tiếng Anh, Quyết Định Bổ Nhiệm Bằng Tiếng Anh, Quyết Định Đi Công Tác Bằng Tiếng Anh, Quyết Định Số 10 Về Giải Phóng Mặt Bằng, Mẫu Quyết Định Bổ Nhiệm Bằng Tiếng Anh, P Quyết Định Học Thêm Bằng Đại Học Thứ Hai Để Nâng Cao Trình Độ Là Thực , Quyết Định Bổ Nhiệm Kế Toán Bằng Tiếng Anh, Mẫu Quyết Định Thôi Việc Bằng Tiếng Anh, Mẫu Quyết Định Khen Thưởng Bằng Tiếng Anh, Báo Cáo Tài Chính Theo Quyết Định 48 Bằng Excel, Quyết Định Khen Thưởng Bằng Tiếng Anh, Quyết Định Thôi Việc Bằng Tiếng Anh, Quyết Định Số 2429/qĐ-byt Ngày 12/6/2017 Ban Hành Tiêu Chí Đánh Giá Mức Chất Lượng Phòng Xét Nghiệm, Bài Thu Hoạch Nghị Quyết Sô 55 Về Định Hướng Chiến Lược Phát Triển Năng Lượng Quốc Gia, Quyết Định Số 2429/qĐ-byt Ngày 12/6/2017 Ban Hành Tiêu Chí Đánh Giá Mức Chất Lượng Phòng Xét Nghiệm , Quyết Định Bổ Nhiệm Kế Toán Trưởng Bằng Tiếng Anh, Quyết Định Tặng Bằng Khen Của Thủ Tướng Chính Phủ Năm 2022, Quyết Định Thành Lập Ban Kiểm Phiếu Lấy ý Kiến Cổ Đông Bằng Văn Bản, 4 Quyết Định Liên Quan Đến Thu Thập Bằng Chứng Kiểm Toán, Mẫu Bảng Sao Kê 6 Tháng Bảng Lương, Thông Tư 77/2012 Quy Định Quy Trình Điều Tra Giải Quyết Tngt Đường Bộ Của Lực Lượng Csgt Đường Bộ, 112/qĐ Ttg Ngày 25 Tháng 1 Năm 2022 Quyết Định Công Nhận Bằng Khen Thủ Tướng Chính Phủ, Thủ Tục In Sao Kê Bảng Lương, Sao Kê Bảng Lương, 6. Quy Chế Lương Bảng Phụ Cấp,

    Mẫu Bảng Lương Quyết Định 48, Mẫu Bảng Lương Theo Quyết Định 19, Quyết Định Ban Hành Thang Bảng Lương, Quyết Định Ban Hành Thang Bảng Lương 2022, Quyết Định Ban Hành Hệ Thống Thang Bảng Lương, Quyết Định Ban Hành Thang Bảng Lương 2022, Mẫu Quyết Định Ban Hành Thang Bảng Lương 2022, Quyết Định Ban Hành Hệ Thống Thang Bảng Lương 2022, Quyết Định Ban Hành Hệ Thống Thang Bảng Lương 2022, Quyết Định Ban Hành Hệ Thống Thang Bảng Lương 2022, Quy Định Hệ Thống Thang Lương Bảng Lương Và Chế Độ Phụ Cấp Lương Trong Các Công Ty Nhà Nước, Tài Liệu Cân Băng Định Lượng Băng Tiếng Việt, Mẫu Bảng Quyết Toán Khối Lượng A B, Bang Tinh Gia Tri Khoi Luong Quyet Toan A-b, Mẫu Bảng Quyết Toán Khối Lượng Công Trình, Cân Băng Tải Định Lượng, Quy Định 7 Bảng Lương, Cân Băng Định Lượng, Bảng Lương Số 4 Nghị Định 204, Bảng Lương Số 5 Nghị Định 204, Định Lượng Protein Huyết Thanh Bằng Khúc Xạ Kế, Mẫu Bảng Xác Định Khối Lượng Công Việc Hoàn Thành, Mẫu Bảng Xác Định Giá Trị Khối Lượng Công Việc Hoàn Thành, Quyết Định Lên Lương, Quyết Định Hệ Số Lương, Quyết Định Hạ Bậc Lương, Quyết Định Lương, Mẫu Quyết Định Kỷ Luật Hạ Bậc Lương, Mẫu Văn Bản Quyết Định Tăng Lương, Quyet Dinh Nâng Lương Cho Cán Bộ , Quyết Định Kỷ Luật Hạ Bậc Lương, Quyết Định Ban Hành Quy Chế Lương, Mẫu Đơn Quyết Định Tăng Lương, Quyết Định Hệ Số Lương Công An, Quyết Định Bổ Nhiệm Và Xếp Lương, Quyết Định Tăng Lương, Quyết Định Nâng Bậc Lương, Quyết Định Nâng Lương, Quyết Định Giảm Lương, Có Quyết Định Hưởng Lương Hưu, Xây Dựng Phương Pháp Định Lượng Rotundin Trong Củ Bình Vôi Tươi Bằng Sắc Ký Lớp Mỏng Kết Hợp Đo Mật, Xây Dựng Phương Pháp Định Lượng Rotundin Trong Củ Bình Vôi Tươi Bằng Sắc Ký Lớp Mỏng Kết Hợp Đo Mật , Yếu Tố Quyết Định Số Lượng Cung Hàng Hóa, Quyết Định Bổ Nhiệm Ngạch Và Xếp Lương, Biên Bản Quyết Định Tăng Lương, Yếu Tố Nào Quyết Định Số Lượng Cung Hàng Hóa, Quyết Định Số 51 Về Dán Nhãn Năng Lượng, Mẫu Quyết Định Bổ Nhiệm Và Tăng Lương, Mẫu Công Văn Quyết Định Tăng Lương, Quyết Định Ban Hành Sổ Tay Chất Lượng,

    --- Bài cũ hơn ---

  • Công An Tỉnh Công Bố Quyết Định Thăng Cấp Bậc Hàm Nâng Bậc Lương Năm 2022
  • Tìm Hiểu Hệ Số Lương Và Cách Tính Lương Theo Hệ Số Lương
  • Công An Tỉnh Ninh Bình Công Bố Quyết Định Thăng Cấp Bậc Hàm, Nâng Bậc Lương Năm 2022
  • Mẫu Quyết Định Kỷ Luật Hạ Bậc Lương
  • Quyết Định Hệ Số Lương
  • Sự Khác Biệt Giữa Quyết Định 15 Và Quyết Định 48

    --- Bài mới hơn ---

  • Thủ Tướng Ký Quyết Định Để Triển Khai Gói Hỗ Trợ 62.000 Tỉ Đồng
  • Quyết Định Thành Lập Doanh Nghiệp Hiện Nay
  • Phim Quyết Định Tối Cao (Maximum Conviction) 2012 Hd
  • Quyết Định Số 56 Của Chủ Tịch Ubnd Huyện Cao Lãnh Phù Hợp Pháp Luật
  • Ban Hành Quyết Định Của Uỷ Ban Nhân Dân Xã
  • Để giúp các bạn sinh viên mới ra trường và các bạn muốn học hỏi thêm về kế toán Trung tâm xin chia sẽ với các bạn về QĐ 15 và QĐ 48.

    Sự khác biệt của quyết định 15 và quyết định 48.

    1. Dấu hiệu nhận biết thế nào là doanh nghiệp nhỏ và vừa, doanh nghiệp lớn

    a. Doanh nghiệp nhỏ và vừa: dấu hiệu nhận biết doanh nghiệp nhỏ và vừa như sau:

    + Vốn: < 10 tỷ

    + Lao động: < 300 người

    Xét về khía cạnh dấu hiệu nhận biết như trên, không hoàn toàn chính xác và phản ánh quy mộ doanh nghiệp lớn hay nhỏ, tuy nhiên nó cũng được xem như là cái mốc để người làm kế toán có sự phân biệt một cách khái quát và tổng thể hơn.

    2. Phạm vi áp dụng của QĐ15 và QĐ48

    3. Hệ thống tài khoản và cơ sở hình thành.

    a. Cơ sở hình thành

    QĐ48: Dựa trên nền tảng QĐ144, đơn giản hóa và bổ sung 1 số giống QĐ15 được khi DN có hướng phát triển trong lương lai sẽ chuyển từ QĐ48 thành QĐ15 được dễ dàng.

    QĐ15: Chủ yếu dựa trên các chuẩn mực và nền tảng của nó là QĐ1141. Đây là 1 bước đột phá để hội nhập thế giới và IAS.

    b. Hệ thống TK sử dụng

    QĐ48 chủ yếu đơn giản hóa các TK, các nghiệp vụ do vậy QĐ48 gồm những TK cái của QĐ15 thành TK chi tiết của mình.

    4. Về chuẩn mực áp dụng

    a. QĐ15: Hầu như áp dụng tất cả các chuẩn mực

    b. QĐ48:

    Áp dụng đấy đủ 7 chuẩn mực:

    Áp dụng không đầy đủ 12 chuẩn mực.

    CM 02 : Hàng tồn kho _Nội dung không áp dụng là : Phân bổ chi phí sản xuất chung cố định theo công suất bình thường máy móc thiết bị (Do QĐ48 không sử dụng TK 621, 622, 627).

    CM 03 : TSCĐ Hữu hình.

    CM 04 : TSCD vô hình.

    CM 06 : Thuê TS.

    CM 07 : Kế toán các khoản đầu tư vào công ty liên kết.

    CM 08 : Thông tin tài chính về những khoản góp vốn liên doanh.

    CM 10 : Ảnh hưởng của việc thay đổi tỷ giá hối đoái.

    CM 15 : Hợp đồng xây dựng.

    Các chuẩn mực không áp dụng.

    CM 11: Hợp nhất.

    CM 19: HĐ bào hiểm.

    CM 22: Bổ sung BCTC.

    CM 25: BCTC hợp nhất.

    CM 27: BCTC giữa niên độ.

    CM 30: Lãi trên cổ phiếu.

    5. Hệ thống báo cáo.

    a. QĐ 48

    b. QĐ15

    Phải lập BCTC năm và BCTC giữa niên độ. Thuyết minh BCTC.

    BCTC năm gồm:

    Bảng cân đối kế toán.

    BCKQ hoạt động kinh doanh

    BC lưu chuyển tiền tệ.

    Thuyết minh BCTC.

    BCTC giữa niên độ:

    Bảng CDKT giữa niên độ.

    BCKQKD giữa niên độ.

    BC lưu chuyển tiền tệ giữa niên độ.

    Nội dung qui định

    Chế độ kế toán doanh nghiệp (QĐ 15/2006/QĐ-BTC)

    Chế độ kế toán doanh nghiệp nhỏ và vừa (QĐ 48/2006/QĐ-BTC)

    Về áp dụng Hệ thống Chuẩn mực kế toán Việt Nam

    Áp dụng đầy đủ tất cả các Chuẩn mực kế toán

    Áp dụng đầy đủ 7 Chuẩn mực kế toán thông dụng, áp dụng không đầy đủ 12 Chuẩn mực kế toán và không áp dụng 7 Chuẩn mực kế toán do không phát sinh nghiệp vụ kinh tế hoặc quá phức tạp đối với DN nhỏ và vừa.

    Về đối tượng áp dụng

    Áp dụng cho tất cả các doanh nghiệp thuộc mọi lĩnh vực, mọi thành phần kinh tế.

    DNNN, Công ty TNHH Nhà nước một thành viên, công ty cổ phần niêm yết trên thị trường chứng khoán, bắt buộc phải áp dụng Chế độ kế toán doanh nghiệp (QĐ 15/2006/QĐ-BTC)

    Công ty TNHH, công ty cổ phần, công ty hợp danh và doanh nghiệp tư nhân có qui mô lớn áp dụng Chế độ kế toán DN (QĐ 15)

    Áp dụng cho tất cả các doanh nghiệp có qui mô nhỏ và vừa thuộc mọi lĩnh vực, mọithành phần kinh tế trong cả nước bao gồm công ty TNHH, công ty cổ phần, công ty hợp danh, doanh nghiệp tư nhân và hợp tác xã.

    Chế độ kế toán DN nhỏ và vừa không áp dụng cho DNNN, công ty TNHH Nhà nước 1 thành viên, công ty cổ phần niêm yết trên thị trường chứng khoán, hợp tác xã nông nghiệp và hợp tác xã tín dụng.

    Doanh nghiệp nhỏ và vừa có thể áp dụng Chế độ kế toán DN (QĐ 15/2006/QĐ-BTC) nhưng phải thông báo cho cơ quan thuế quản lý DN mình biết và phải thực hiện ổn định ít nhất trong 2 năm tài chính.

    Các doanh nghiệp có qui mô nhỏ và vừa thuộc lĩnh vực đặc thù như điện lực, dầu khí, bảo hiểm, chứng khoán … được áp dụng Chế độ kế toán đặc thù do Bộ Tài chính ban hành hoặc chấp thuận cho ngành ban hành.

    Về Hệ thống Tài khoản kế toán

    Có 86 tài khoản cấp I

    120 tài khoản cấp II

    02 tài khoản cấp III

    06 tài khoản ngoài bảng

    Có 51 tài khoản cấp I

    62 tài khoản cấp II

    05 tài khoản cấp III

    05 tài khoản ngoài bảng

    Báo cáo tài chính

    Về biểu mẫu BCTC năm

    Phải lập Báo cáo tài chính năm và Báo cáo tài chính giữa niên độ

    * Báo cáo tài chính năm gồm:

    – Bảng cân đối kế toán (Mẫu số B01-DN)

    – Báo cáo kết quả hoath động kinh doanh (Mẫu số B02-DN)

    – Báo cáo lưu chuyển tiền tệ (Mẫu số B03-DN)

    – Bản thuyết minh báo cáo tài chính (Mẫu số B09-DN)

    * Báo cáo tài chính giữa niên độ dạng đầy đủ gồm:

    – Bảng CĐKT giữa niên độ (dạng đầy đủ): Mẫu số B 01a-DN

    – Báo cáo kết quả hoạt động kinh doanh giữa niên độ (dạng đầy đủ): Mẫu số B 02a-DN

    – Báo cáo lưu chuyển tiền tệ giữa niên độ (dạng đầy đủ): Mẫu số B 03a-DN

    – Bản thuyết minh BCTC chọn lọc: Mẫu số B 09a-DN

    * BCTC giữa niên độ dạng tóm lược gồm:

    – Bảng CĐKT giữa niên độ (dạng tóm lược): Mẫu số B 01b-DN

    – Báo cáo kết quả hoạt động kinh doanh giữa niên độ (dạng tóm lược): Mẫu số B 02b-DN

    – Báo cáo lưu chuyển tiền tệ giữa niên độ (dạng tóm lược): Mẫu số B 03b-DN

    – Bản thuyết minh BCTC chọn lọc: Mẫu số B 09-DN

    * Báo cáo tài chính hợp nhất

    – Bảng CĐKT hợp nhất: (Mẫu số B 01-DN/HN)

    – Báo cáo kết quả hoạt động kinh doanh hợp nhất: (Mẫu số B02-DN/HN)

    – Báo cáo lưu chuyển tiền tệ hợp nhất: (Mẫu số B 03-DN/HN)

    – Bản thuyết minh BCTC hợp nhất: (Mẫu số B 09-DN/HN)

    * Báo cáo tài chính tổng hợp

    – Bảng CĐKT tổng hợp: (Mẫu số B 01-DN)

    – Báo cáo kết quả hoạt động kinh doanh tổng hợp: (Mẫu số B 02-DN)

    – Báo cáo Lưu chuyển tiền tệ tổng hợp: (Mẫu số B 03-DN)

    – Bản thuyết minh BCTC tổng hợp: (Mẫu số B 09-DN)

    Phải lập Báo cáo tài chính năm

    a. Báo cáo tài chính cho DN nhỏ và vừa:

    * Báo cáo tài chính bắt buộc phải lập:

    – Bảng cân đối kế toán (Mẫu số B01-DNN)

    – Báo cáo kết quả hoạt động kinh doanh (Mẫu số B02-DNN)

    – Bản thuyết minh Báo cáo tài chính (Mẫu số B09-DNN)

    – Phụ biểu – Bảng cân đối tài khoản (Mẫu số F01-DNN gửi cho cơ quan thuế)

    * Báo cáo tài chính khuyến khích lập:

    – Báo cáo lưu chuyển tiền tệ (Mẫu số B03-DNN)

    b. Báo cáo tài chính qui định cho Hợp tác xã:

    – Báo cáo lưu chuyển tiền tệ (Mẫu số B03-DNN)

    – Bảng cân đối tài khoản (Mẫu số B01-DNN/HTX)

    – Báo cáo kết quả hoạt HĐKD (Mẫu số B02-DNN/HTX)

    – Bản thuyết minh báo cáo tài chính (Mẫu số B09-DNN/HTX)

    * Không qui định BCTC giữa niên độ (DN có thể lập phục vụ quản lý của mình)

    * Không qui định

    * Không qui định

    * Nơi nhận BCTC:

    – Cơ quan tài chính

    – Cơ quan thuế

    – Cơ quan thống kê

    – Cơ quan đăng ký kinh doanh

    – DN cấp trên

    * Nơi nhận BCTC:

    – Cơ quan thuế

    – Cơ quan thống kế

    – Cơ quan đăng ký kinh doanh

    Về mẫu Báo cáo tài chính năm

    Nhiều chỉ tiêu hơn:

    – BCĐKT: 97 chỉ tiêu

    – BCKQ HĐKD: 19 chỉ tiêu

    – Báo cáo lưu chuyển tiền tệ: 27 chỉ tiêu

    – Bản thuyết minh BCTC: nhiều chỉ tiêu

    Ít chỉ tiêu hơn:

    – BCĐKT: 64 chỉ tiêu

    – BCKQ HĐKD: 16 chỉ tiêu

    – Báo cáo lưu chuyển tiền tệ: 27 chỉ tiêu

    – Bản thuyết minh BCTC: ít chỉ tiêu hơn

    MỜI BẠN XEM THÊM KHÓA HỌC KẾ TOÁN THỰC HÀNH ( Kê khai thuế, làm sổ sách, báo cáo tài chính thực hành trên phần mềm Misa, Excel, trên chứng từ thực tế)

    --- Bài cũ hơn ---

  • Đảng Ủy Quân Sự Tỉnh Trao Quyết Định Bổ Nhiệm Chức Vụ, Điều Động Cán Bộ Quý 4 Năm 2022
  • Ra Quân Huấn Luyện Năm 2022
  • Các Địa Phương, Đơn Vị Ra Quân Huấn Luyện Năm 2022
  • Quyết Định Số 03/2018 Của Thành Ủy Hà Nội Về Việc Phân Cấp Quản Lý Cán Bộ
  • Quyết Định Ban Hành Danh Mục Hồ Sơ Năm 2022
  • Cây Quyết Định Là Gì? Ví Dụ Về Cây Quyết Định

    --- Bài mới hơn ---

  • Mặt Yếu Của Cây Quyết Định Là Gì?
  • Thuật Toán Cây Quyết Định (P.4): Ưu & Khuyết Điểm, Stopping & Pruning Method
  • Những Yếu Tố Quyết Định Trong Marketing Trực Tiếp
  • #1 Marketing Là Gì? 9 Định Nghĩa Cơ Bản Về Marketing Bạn Nên Biết
  • 4P Trong Marketing Là Gì? Chiến Lược Sống Động Trong Từng P
  • Cây quyết định là gì?

    Cây quyết định (decision tree) là một phương tiện hỗ trợ cho việc ra quyết định trong điều kiện bất định. Nó chỉ ra nhiều đường lối hành động khác nhau và hậu quả kinh tế của mỗi đường lối. Thông thường, mỗi đường lối hành động được gắn với một xác suất chủ quan về khả năng phát sinh các sự kiện trong tương lai.

    Ví dụ về cây quyết định

    Giả sử, có một người bán lẻ cần một tiêu chuẩn ra quyết định cho phép anh ta lựa chọn phương án hành động tốt nhất trong các phương án có thể có. Vì sự lựa chọn này gắn với yếu tố rủi ro. Nếu người bán lẻ không chú ý đến rủi ro, chúng ta có thể tính toán tính xác định tương đương của hành vi “mở cửa hàng” bàng cách sử dụng tiêu chuẩn giá trị bằng tiền dự kiến – một tiêu chuẩn căn cứ vào hậu quả tài chính của mỗi kết cục và gia quyền nó theo xác suất xuất hiện của nó.

    Anh ta có hai phương án hành động là mở cửa hàng và không mở cửa hàng. Anh ta phải cân nhắc hai trạng thái tự nhiên, tức hai sự kiện có thể xảy ra: nền kinh tế phát triển mạnh hoặc suy thoái. Người bán lẻ phải đánh giá khả năng xuất hiện mỗi sự kiện và trong tình huống này, anh ta dựa trên kinh nghiệm và hiểu biết để nhận định rằng khả năng xuất hiện mỗi sự kiện bằng 50%. Cuối cùng, người bán lẻ ước tính hậu quả tài chính là nếu mở cửa hàng sẽ có lãi 40.000 đồng khi kinh tế phát triển mạnh vè lỗ 30.000đ nếu có suy thoái. Như vậy ta có công thức sau:

    0,5 x (+40.000)đ= +20.000đ

    0,5 x (-30.000)đ = -15.000đ

    +20.000đ – 15.000đ = +5.000đ

    Kết cục này chắc chắn lớn hơn 0 trong trường hợp không mở của hàng và nó biện minh cho việc tiếp tục thực hiện dự án này.

    Song nếu người bán lẻ là người ghét rủi ro, tiêu chuẩn giá trị bằng tiền có thể không phải là tiêu chuẩn thích hợp, vì anh ta cần nhận được phần thưởng cho sự rủi ro để chấp nhận hành động. Việc vận dụng tiêu chuẩn cẩn thận hơn tiêu chuẩn tương đương với tính xác định sẽ làm giảm tiêu chuẩn tương đương với tính xác định của nhánh “mở cửa hàng” và điều này cũng dẫn đến quyết định tiếp tục mở cửa hàng.

    --- Bài cũ hơn ---

  • Cây Quyết Định (Decision Tree) Là Gì? Ví Dụ Về Cây Quyết Định
  • Những Cơ Sở Để Ra Quyết Định
  • Kê Biên, Xử Lý Tài Sản Là Quyền Sử Dụng Đất
  • Kê Biên, Xử Lý Tài Sản Thi Hành Án
  • Kê Biên Tài Sản Là Gì ? Khái Niệm Về Kê Biên Tài Sản
  • Cây Quyết Định (Decision Tree) Là Gì? Ví Dụ Về Cây Quyết Định

    --- Bài mới hơn ---

  • Cây Quyết Định Là Gì? Ví Dụ Về Cây Quyết Định
  • Mặt Yếu Của Cây Quyết Định Là Gì?
  • Thuật Toán Cây Quyết Định (P.4): Ưu & Khuyết Điểm, Stopping & Pruning Method
  • Những Yếu Tố Quyết Định Trong Marketing Trực Tiếp
  • #1 Marketing Là Gì? 9 Định Nghĩa Cơ Bản Về Marketing Bạn Nên Biết
  • Khái niệm

    Cây quyết định trong tiếng Anh là Decision tree.

    Cây quyết định là một phương tiện hỗ trợ cho việc ra quyết định trong điều kiện bất định. Nó chỉ ra nhiều đường lối hàng động khác nhau và hậu quả kinh tế của mỗi đường lối. Thông thường, mỗi đường lối hành động được gắn với một xác suất chủ quan về khả năng phát sinh các sự kiện trong tương lai.

    Ví dụ về cây quyết định

    Căn cứ vào Cây quyết định trên, người bán lẻ có hai phương án hành động là mở cửa hàng và không mở cửa hàng. Anh ta phải cân nhắc hai trạng thái tự nhiên, tức hai sự kiện có thể xảy ra: nền kinh tế phát triển mạnh hoặc suy thoái.

    Người bán lẻ phải đánh giá khả năng xuất hiện mỗi sự kiện và trong tình huống này, anh ta dựa trên kinh nghiệm và hiểu biết để nhận định rằng khả năng xuất hiện mỗi sự kiện bằng 50%. Cuối cùng, người bán lẻ ước tính hậu quả tài chính là nếu mở cửa hàng sẽ có lãi 40.000 đồng khi kinh tế phát triển mạnh và lỗ 30.000 đồng nếu có suy thoái.

    Để ra quyết định, người bán lẻ cần một tiêu chuẩn ra quyết định cho phép anh ta lựa chọn phương án hành động tốt nhất trong các phương án có thể có. Vì sự lựa chọn này gắn với yếu tố rủi ro, nên chúng ta cần biết thái độ của người bán lẻ đối với rủi ro.

    Nếu người bán lẻ không chú ý đến rủi ro, chúng ta có thể tính toán tính xác định tương đương với hành vi “mở cửa hàng” bằng cách căn cứ vào hậu quả tài chính của mỗi kết cục và gia quyền nó theo xác suất xuất hiện của nó. Ví dụ:

    Kết cục này chắc chắn lớn hơn 0 trong trường hợp không mở cửa hàng và nó biện minh cho việc tiếp tục thực hiện dự án này.

    Song nếu người bán lẻ là người ghét rủi ro, tiêu chuẩn giá trị bằng tiền có thể không phải là tiêu chuẩn thích hợp, vì anh ta cần nhận được phần thưởng cho sự rủi ro để chấp nhận hành động. Việc tận dụng tiêu chuẩn cẩn thận hơn tiêu chuẩn tương đương với tính xác định sẽ làm giảm tiêu chuẩn tương đương với tính xác định của nhánh “mở cửa hàng” và điều này cũng dẫn đến quyết định tiếp tục mở cửa hàng.

    --- Bài cũ hơn ---

  • Những Cơ Sở Để Ra Quyết Định
  • Kê Biên, Xử Lý Tài Sản Là Quyền Sử Dụng Đất
  • Kê Biên, Xử Lý Tài Sản Thi Hành Án
  • Kê Biên Tài Sản Là Gì ? Khái Niệm Về Kê Biên Tài Sản
  • Kê Biên Tài Sản Của Người Phải Thi Hành Án Dân Sự Theo Quy Định Hiện Nay
  • Quyết Định Về Việc Phê Duyệt Thiết Kế Kỹ Thuật Dự Toán

    --- Bài mới hơn ---

  • Quyết Định Phê Duyệt Đề Cương Và Dự Toán Kinh Phí
  • Quyết Định Phê Duyệt Đề Cương Và Dự Toán Kinh Phí Chương Trình Đẩy Mạnh Xuất Khẩu
  • Thẩm Quyền, Trình Tự Thẩm Định Báo Cáo Kinh Tế Kỹ Thuật Công Trình
  • Điều Kiện Để Lập Và Phê Duyệt Chủ Trương Đầu Tư Xây Dựng Công Trình Sử Dụng Nguồn Vốn Nsnn
  • Thường Trực Hđnd Tỉnh Quyết Định Phê Duyệt Chủ Trương Đầu Tư Dự Án Bệnh Viện Y Dược Cổ Truyền Tỉnh Ninh Thuận
  • ỦY BAN NHÂN DÂN CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

    TỈNH BÌNH PHƯỚC Độc lập – Tự do – Hạnh phúc

    Số: 2108/QĐ-UBND Đồng Xoài, ngày 06 tháng 12 năm 2006

    QUYẾT ĐỊNH

    Về việc phê duyệt thiết kế kỹ thuật – dự toán

    Công trình: Xây dựng Trung tâm Thương mại Phước Bình, huyện Phước Long

    Hạng mục: Hạ tầng kỹ thuật (thiết kế điều chỉnh hệ thống thoát nước mưa)

    ỦY BAN NHÂN DÂN TỈNH

    Căn cứ Luật Tổ chức HĐND và UBND ngày 26/11/2003;

    Căn cứ Nghị định số: 52/1999/NĐ-CP ngày 08/7/1999 của Chính phủ về việc ban hành Quy chế quản lý đầu tư xây dựng;

    Căn cứ Quyết định số: 17/2000/QĐ-BXD ngày 02/8/2000 của Bộ trưởng Bộ Xây dựng về việc ban hành quy định quản lý chất lượng công trình xây dựng;

    Căn cứ Thông tư số: 05/2003/TT-BXD ngày 14/3/2003 của Bộ trưởng Bộ Xây dựng hướng dẫn điều chỉnh dự toán công trình xây dựng cơ bản;

    Căn cứ Quyết định số: 117/2000/QĐ-UB ngày 28/12/2000 của UBND tỉnh về việc ban hành qui định thực hiện Quy chế quản lý đầu tư và xây dựng trên địa bàn tỉnh Bình Phước;

    Căn cứ Quyết định số: 2067/QĐ-UB ngày 24/11/1998 của UBND tỉnh về việc phê duyệt dự án đầu tư xây dựng Trung tâm thương mại Phước Bình, huyện Phước Long, tỉnh Bình Phước;

    Căn cứ Quyết định số: 107/QĐ-UB ngày 17/01/2001 của UBND tỉnh về việc phê duyệt thiết kế kỹ thuật – dự toán hạng mục: Hạ tầng kỹ thuật Trung tâm Thương mại Phước Bình;

    Căn cứ Quyết định số: 2399/QĐ-UB ngày 01/12/2003 của UBND tỉnh về việc điều chỉnh dự toán hạng mục: Hạ tầng kỹ thuật Trung tâm Thương mại Phước Bình;

    Xét kết quả thẩm định số: 925/SXD-KT.KT ngày 30/11/2006 của Sở Xây dựng,

    Điều 1. Phê duyệt thiết kế kỹ thuật – dự toán công trình: Xây dựng Trung tâm Thương mại Phước, huyện Phước Long. Hạng mục: Hạ tầng kỹ thuật (Thiết kế điều chỉnh hệ thống thoát nước mưa) với nội dung như sau:

    – Chủ đầu tư: UBND huyện Phước Long.

    – Địa điểm xây dựng: Công trình xây dựng tại thị trấn Phước Bình, huyện Phước Long, tỉnh Bình Phước.

    – Nhà thầu lập thiết kế kỹ thuật – dự toán điều chỉnh: Công ty TNHH Tư vấn Xây dựng Tấn Phước.

    – Quy mô xây dựng, công suất, các thông số kỹ thuật chủ yếu: Toàn bộ hệ thống thoát nước mưa được sử dụng bằng ống bê tông cốt thép đúc tại chỗ có chiều dài mỗi đất là 1m. Ống 400 dài 1112m; 600 dài 137m; 800 dài 49m; 1000 dài 38m. Lót đáy cống bằng bê tông đá 4 x 6M100 có chiều dài theo từng loại cống. Đáy, thành, tấm đan hố ga bằng bê tông cốt thép.

    Dự toán: 1.186.950.866 đ.

    Trong đó :

    – Giá trị xây lắp sau thuế: 1.167.828.508 đ

    --- Bài cũ hơn ---

  • Tờ Trình Xin Phê Duyệt Dự Toán Thu Chi
  • Mẫu Quyết Định Phê Duyệt Dự Toán
  • Mẫu Quyết Định Phê Duyệt Đề Cương Và Dự Toán Chi Tiết
  • Quyết Định Phê Duyệt Nhiệm Vụ Và Dự Toán Chi Phí Lập Đồ Án Quy Hoạch Chung
  • Lập Dự Toán Điều Chỉnh Và Điều Chỉnh Giá Gói Thầu Xây Lắp
  • Web hay
  • Links hay
  • Push
  • Chủ đề top 10
  • Chủ đề top 20
  • Chủ đề top 30
  • Chủ đề top 40
  • Chủ đề top 50
  • Chủ đề top 60
  • Chủ đề top 70
  • Chủ đề top 80
  • Chủ đề top 90
  • Chủ đề top 100
  • Bài viết top 10
  • Bài viết top 20
  • Bài viết top 30
  • Bài viết top 40
  • Bài viết top 50
  • Bài viết top 60
  • Bài viết top 70
  • Bài viết top 80
  • Bài viết top 90
  • Bài viết top 100