GIỚI THIỆU VỀ MÁY HỌC: AUTOML CÓ THỂ THAY THẾ CÁC NHÀ KHOA HỌC DỮ LIỆU KHÔNG?

Các Phương pháp Máy Học

Máy Học (ML) là cách để hiện thực hóa trí tuệ nhân tạo, giải quyết các vấn đề trong trí tuệ nhân tạo thông qua máy học.Dữ liệu lớn nghĩa là phân tích một lượng lớn dữ liệu và trí tuệ nhân tạo sẽ làm cho máy thông minh hơn.Cả hai đều có thể sử dụng máy học như một công cụ chủ chốt.Hãy tìm hiểu các loại mô hình ML phổ biến trước khi đi vào giải thích ứng dụng của ML.

Học có giám sát

Từ tập huấn luyện, nhiệm vụ của máy học là dựng hàm, dự đoán đầu ra dựa vào hàm.Tập huấn luyện thường gồm các cặp vectơ đầu vào (hoặc vô hướng) và vectơ đầu ra tương ứng (hoặc vô hướng), đầu ra của hàm có thể là hồi quy hoặc dự đoán phân loại.

Supervised learning

Học không giám sát

Thuật toán máy học này học từ một tập dữ liệu không gắn nhãn.Thuật toán có thể tự động phân lớp hoặc phân loại dữ liệu đầu vào.Ứng dụng phương pháp học không giám sát chủ yếu bao gồm phân tích cụm, quy tắc liên kết hoặc giảm chiều dữ liệu.

Unsupervised learning

Học bán giám sát

Học từ một lượng nhỏ dữ liệu được gắn nhãn với một lượng lớn dữ liệu không được gắn nhãn.Học bán giám sát kết hợp giữa học không giám sát (dữ liệu huấn luyện không có nhãn) và học có giám sát (dữ liệu huấn luyện có nhãn hoàn toàn).Nhiều nghiên cứu về máy học đã chỉ ra rằng sự kết hợp giữa dữ liệu không có nhãn và một lượng nhỏ dữ liệu có nhãn có thể nâng cao độ chính xác của việc học.

Semi-Supervised learning

Ví dụ, Phân tích Hình ảnh Y khoa như dữ liệu chụp CT hoặc MRI, bác sĩ X quang có thể kiểm tra và đánh dấu một phần nhỏ của khối u hoặc bệnh.Máy có thể thu thập dữ liệu dễ dàng, nhưng việc đánh dấu thủ công tất cả các lần chụp sẽ tốn nhiều thời gian và chi phí.Do đó, so với học không giám sát, huấn luyện một mô hình để hỗ trợ gắn nhãn dữ liệu kết hợp với mạng lưới học sâu có thể có lợi nhờ lượng nhỏ dữ liệu được gắn nhãn và cải thiện độ chính xác của nó.

Học củng cố

Công nghệ máy học nhấn mạnh cách các tác tử nên hành động thế nào trong môi trường để nhận được nhiều phần thưởng tích lũy nhất.Sự khác biệt giữa học củng cố và học có giám sát là học củng cố không đòi hỏi dữ liệu đầu vào và đầu ra đánh dấu chính xác và nó cũng không đòi hỏi độ chính xác gần điểm tối ưu.Học củng cố tập trung vào lập trình tuyến tính, tìm kiếm sự cân bằng giữa khám phá (lãnh thổ chưa được khám phá) và khai thác (kiến thức hiện tại).

Reinforcement learning

Nhu cầu Máy Học

Nhu cầu ML có thể được chia thành ba nhóm, từ thời gian phát triển ngắn đến dài và mức độ vấn đề đến chi tiết:

Cần dịch vụ AI “thức ăn nhanh”

Nhóm khách hàng này muốn có một dịch vụ AI tự động, một số dịch vụ AI hiện có có thể đáp ứng nhu cầu của họ.Chẳng hạn như ném dữ liệu của họ vào hồ dữ liệu và sau đó sử dụng AWS Rekognition, AWS Comprehend để xuất kết quả ML tới API của họ.

Xác định vấn đề

Nhóm khách hàng này biết doanh nghiệp mình cần gì, họ hiểu dữ liệu nào họ có thể cung cấp và hiểu loại kết quả máy học nào có thể giải quyết vấn đề của họ. Các mô hình hoặc công cụ AutoML hiện có có thể được sử dụng để đáp ứng mong muốn của họ, chẳng hạn như Amazon ML hoặc AWS SageMaker Marketplace.

Cần giúp xác định giả định về dữ liệu

Nhóm khách hàng này có nhu cầu kinh doanh, không xác định rõ ràng vấn đề, nhưng muốn khai thác giá trị từ dữ liệu sẵn có.Hiện tại, cần xác định giả thuyết kinh doanh qua một số công cụ BI như Tableau, sau đó phát triển các thuật toán sử dụng AWS SageMaker hoặc EMR, v.v.Từ kỹ thuật tính năng đến mô hình hóa, ngay cả kiến ​​trúc cũng phải được tùy chỉnh cao.

Need help in defining data assumptions

<emLưu ý: Khoảng thời gian cho thay đổi phát triển tùy thuộc vào nhu cầu của người dùng.Từ dưới lên trên là thời gian nhanh chóng để định giá cho người dùng AI, xác định câu hỏi và xác định giả thuyết.Nếu người dùng có yêu cầu cao hơn cho việc xác định giả thuyết, thời gian phát triển sẽ lâu hơn.

AutoML (máy học tự động): Phương pháp tiếp cận nhanh chóng để triển khai AI

Máy học là một giải pháp giải quyết vấn đề kết hợp nhiều kiến ​​thức toán học.Có nhiều loại mô hình máy học khác nhau trong các kịch bản khác nhau.Hình dưới đây cho thấy mối quan hệ tương tác giữa các phương pháp ML khác nhau.Mỗi vấn đề có thể tập trung vào các lĩnh vực toán học và khoa học máy tính khác nhau.Tuy nhiên, đôi khi thật khó để quyết định sử dụng mô hình nào giữa quá nhiều lựa chọn.

Approach to AI Deployment

Về mặt thông lệ, quá trình xây dựng một mô hình ML chủ yếu dựa vào các nhà khoa học dữ liệu có kinh nghiệm.Họ cần tìm ra các tính năng, quy trình, mô hình, siêu tham số mô hình thích hợp, v.v., thường toàn bộ quá trình rất mất thời gian.Tuy nhiên, để ML được mô hình hóa và sử dụng rộng rãi trong nhiều kịch bản khác nhau về sau, lĩnh vực nghiên cứu tự động hóa ML được gọi là Auto ML.Nói chung, Auto ML không chỉ là một sự phát triển mô hình mà còn bao gồm việc làm sạch dữ liệu, phân tích tính năng và chuyển đổi.Việc phát triển mô hình thường liên quan đến việc lựa chọn lặp đi lặp lại một hoặc nhiều thuật toán, kiểm tra mô hình, tối ưu hóa siêu tham số và đánh giá mô hình.Sự xuất hiện của Auto ML có thể giải quyết quá trình lặp đi lặp lại và dư thừa của việc lập mô hình và điều chỉnh.Nó cho phép doanh nghiệp thử nghiệm nhiều mô hình khác nhau và giúp doanh nghiệp tăng hiệu quả giải quyết vấn đề hoặc đưa ra kết quả chính xác hơn.

Liệu các nhà khoa học dữ liệu có bị thất nghiệp?

McKinsey Global Institute (MGI) chỉ ra rằng sự xuất hiện của Auto-ML có thể giải quyết tình trạng thiếu hụt trong lĩnh vực khoa học dữ liệu và thay thế 50% công việc của các nhà khoa học dữ liệu.Mặc dù vậy, AutoML sẽ không thay thế hoàn toàn nhà khoa học dữ liệu, các nhà khoa học dữ liệu biết loại dữ liệu nào nên được thu thập và cách sắp xếp chúng để giải quyết một vấn đề kinh doanh cụ thể.Hơn nữa, các nhà khoa học dữ liệu biết cách đưa ra phán đoán chính xác.Ví dụ, mô hình nào nên được triển khai và sản xuất.

Làm thế nào để áp dụng AutoML trong kịch bản xác định vấn đề?

Các quy trình ML trước đây yêu cầu tiền xử lý dữ liệu, kỹ thuật tính năng, huấn luyện mô hình và chuyển mô hình cho đến khi tìm ra mô hình phù hợp nhất.Toàn bộ quá trình này tốn nhiều thời gian.Khi cố gắng dùng giải pháp này, nó lại thành một vấn đề phát triển khác.Nếu chúng ta sử dụng các mô hình hoặc công cụ AutoML để giúp huấn luyện mô hình của mình, công nghệ này có thể giúp tiết kiệm thời gian cho chúng ta.Nói chung, quá trình máy học có thể được chia thành nhiều phần, từ phần thu thập dữ liệu đến phần triển khai, những phần đó có thể được mô hình hóa.Có nhiều cách phân loại vấn đề khác nhau và các giải pháp tùy thuộc vào kịch bản và cách sử dụng.Chúng tôi lấy phân tích dữ liệu bán lẻ làm ví dụ.Nếu vấn đề đó là nhận biết đâu là thị trường tiềm năng phù hợp với cửa hàng.Cần phải xem xét các yếu tố như số lượng khách hàng, số lượng đơn đặt hàng, địa điểm, v.v., những khía cạnh đó có thể giúp tìm kiếm thông tin tiềm năng.Trước đây, chúng ta cần tự lấy dữ liệu không gian địa lý từ các nguồn khác nhau.Hiện nay, chúng ta có thể tận dụng một số công cụ như mô hình giàu địa lý trong Python.Nó cung cấp dữ liệu không gian địa lý, dân số và thu nhập để làm trơn tru các quy trình phân tích dữ liệu và cải thiện độ chính xác của các mô hình ML.Về thuật toán, việc đào tạo và triển khai các thành phần mô hình có thể được thực hiện bằng các công cụ hoặc mô hình AutoML.

Download whitepaper written by our data experts! >> Download whitepaper now!

2021-09-06T17:09:43+00:00 2019/04/11 |Insights|