[ad_1]
Trong năm 2017, The Economist tuyên bố dữ liệu đó, chứ không phải dầu, đã trở thành tài nguyên quý giá nhất thế giới. Các điệp khúc đã được lặp lại kể từ đó. Các tổ chức trong mọi ngành đã và đang tiếp tục đầu tư mạnh mẽ vào dữ liệu và phân tích. Nhưng giống như dầu, dữ liệu và phân tích có mặt tối của chúng.
Theo báo cáo State of the CIO 2022 của CIO, 35% các nhà lãnh đạo CNTT nói rằng dữ liệu và phân tích kinh doanh sẽ thúc đẩy đầu tư vào CNTT nhiều nhất tại tổ chức của họ trong năm nay. Và 20% các nhà lãnh đạo CNTT nói rằng học máy / trí tuệ nhân tạo sẽ thúc đẩy đầu tư vào CNTT nhiều nhất. Thông tin chi tiết thu được từ các phân tích và hành động do thuật toán máy học thúc đẩy có thể mang lại cho tổ chức lợi thế cạnh tranh, nhưng sai lầm có thể phải trả giá đắt về danh tiếng, doanh thu hoặc thậm chí là tính mạng.
Hiểu dữ liệu của bạn và những gì nó cho bạn biết là quan trọng, nhưng cũng cần hiểu các công cụ của bạn, biết dữ liệu của bạn và ghi nhớ các giá trị của tổ chức của bạn.
Dưới đây là một số phân tích cao cấp và sai lầm về AI trong thập kỷ qua để minh họa những gì có thể xảy ra.
Thuật toán AI xác định mọi thứ trừ COVID-19
Kể từ khi đại dịch COVID-19 bắt đầu, nhiều tổ chức đã tìm cách áp dụng thuật toán máy học (ML) để giúp các bệnh viện chẩn đoán hoặc phân loại bệnh nhân nhanh hơn. Nhưng theo Viện Turing của Vương quốc Anh, một trung tâm quốc gia về khoa học dữ liệu và AI, các công cụ dự đoán tạo ra ít hoặc không có sự khác biệt.
Đánh giá Công nghệ MIT đã ghi lại một số lỗi, hầu hết trong số đó xuất phát từ lỗi trong cách các công cụ được đào tạo hoặc thử nghiệm. Việc sử dụng dữ liệu dán nhãn sai hoặc dữ liệu từ các nguồn không xác định là thủ phạm phổ biến.
Derek Driggs, một nhà nghiên cứu máy học tại Đại học Cambridge, cùng với các đồng nghiệp của mình, đã xuất bản một bài báo trên Nature Machine Intelligence đã khám phá việc sử dụng các mô hình học sâu để chẩn đoán vi-rút. Bài báo xác định kỹ thuật này không phù hợp để sử dụng trong lâm sàng. Ví dụ, nhóm của Driggs nhận thấy rằng mô hình của riêng họ có sai sót vì nó được đào tạo trên một tập dữ liệu bao gồm quét bệnh nhân nằm xuống khi quét và bệnh nhân đang đứng lên. Những bệnh nhân đang nằm có nhiều khả năng bị bệnh nặng hơn, vì vậy thuật toán đã học cách xác định nguy cơ COVID dựa trên vị trí của người đó trong quá trình quét.
Một ví dụ tương tự bao gồm một thuật toán được đào tạo với tập dữ liệu bao gồm các bản quét ngực của những đứa trẻ khỏe mạnh. Thuật toán đã học để xác định trẻ em, không phải bệnh nhân có nguy cơ cao.
Zillow đã viết ra hàng triệu đô la, cắt giảm lực lượng lao động do thảm họa mua nhà bằng thuật toán
Vào tháng 11 năm 2021, thị trường bất động sản trực tuyến Zillow nói với cổ đông nó sẽ ngừng hoạt động của Zillow Offers và cắt giảm 25% lực lượng lao động của công ty – khoảng 2.000 nhân viên – trong vài quý tới. Tai ương của đơn vị chuyển nhà là kết quả của tỷ lệ lỗi trong thuật toán học máy mà nó sử dụng để dự đoán giá nhà.
Zillow Offers là một chương trình thông qua đó công ty đưa ra các ưu đãi bằng tiền mặt đối với các bất động sản dựa trên “Zestimate” của các giá trị gia đình có được từ một thuật toán máy học. Ý tưởng là cải tạo các thuộc tính và lật chúng nhanh chóng. Nhưng một người phát ngôn của Zillow nói với CNN rằng thuật toán có tỷ lệ lỗi trung bình là 1,9% và tỷ lệ lỗi có thể cao hơn nhiều, lên tới 6,9%, đối với các ngôi nhà ngoài thị trường.
CNN báo cáo rằng Zillow đã mua 27.000 căn nhà thông qua Zillow Offers kể từ khi ra mắt vào tháng 4 năm 2018 nhưng chỉ bán được 17.000 căn cho đến cuối tháng 9 năm 2021. Các sự kiện thiên nga đen như đại dịch COVID-19 và tình trạng thiếu lao động sửa chữa nhà đã góp phần gây ra những rắc rối về độ chính xác của thuật toán.
Zillow cho biết thuật toán đã khiến nó vô tình mua nhà với giá cao hơn ước tính hiện tại của nó về giá bán trong tương lai, dẫn đến việc ghi giảm hàng tồn kho trị giá 304 triệu đô la vào quý 3 năm 2021.
Trong một cuộc gọi hội nghị với các nhà đầu tư sau thông báo, đồng sáng lập Zillow và Giám đốc điều hành Rich Barton cho biết có thể điều chỉnh thuật toán, nhưng cuối cùng nó quá rủi ro.
Vương quốc Anh đã mất hàng nghìn trường hợp COVID do vượt quá giới hạn dữ liệu bảng tính
Vào tháng 10 năm 2020, Public Health England (PHE), cơ quan chính phủ Vương quốc Anh chịu trách nhiệm kiểm đếm các ca nhiễm COVID-19 mới, tiết lộ rằng gần 16.000 trường hợp coronavirus đã không được báo cáo giữa tháng 9. 25 và tháng 10 2. Thủ phạm? Giới hạn dữ liệu trong Microsoft Excel.
PHE sử dụng quy trình tự động để chuyển kết quả phòng thí nghiệm dương tính COVID-19 dưới dạng tệp CSV sang các mẫu Excel được sử dụng bởi trang tổng quan báo cáo và để theo dõi liên hệ. Thật không may, bảng tính Excel có thể có tối đa trong số 1.048.576 hàng và 16.384 cột trên mỗi trang tính. Hơn nữa, PHE đã liệt kê các trường hợp trong cột chứ không phải hàng. Khi các trường hợp vượt quá giới hạn 16.384 cột, Excel sẽ cắt 15.841 bản ghi ở dưới cùng.
“Trục trặc” không ngăn cản những người được xét nghiệm nhận kết quả của họ, nhưng nó đã thực hiện các nỗ lực theo dõi tiếp xúc stymie, khiến Dịch vụ Y tế Quốc gia Vương quốc Anh (NHS) khó xác định và thông báo cho những cá nhân tiếp xúc gần với bệnh nhân bị nhiễm bệnh . Trong một tuyên bố vào tháng 10. 4, Michael Brodie, giám đốc điều hành tạm thời của PHE, cho biết NHS Test and Trace và PHE đã giải quyết vấn đề một cách nhanh chóng và chuyển tất cả các trường hợp tồn đọng ngay lập tức vào hệ thống theo dõi liên lạc NHS Test and Trace.
PHE đã thực hiện một biện pháp “giảm thiểu nhanh chóng” chia nhỏ các tệp lớn và đã tiến hành đánh giá toàn bộ từ đầu đến cuối của tất cả các hệ thống để ngăn chặn các sự cố tương tự trong tương lai.
Thuật toán chăm sóc sức khỏe không thể gắn cờ cho bệnh nhân Da đen
Trong năm 2019, một nghiên cứu được công bố trên Science tiết lộ rằng một thuật toán dự đoán chăm sóc sức khỏe, được các bệnh viện và công ty bảo hiểm trên khắp Hoa Kỳ sử dụng để xác định bệnh nhân cần các chương trình “quản lý chăm sóc rủi ro cao”, ít có khả năng chỉ ra bệnh nhân da đen hơn.
Các chương trình quản lý chăm sóc rủi ro cao cung cấp các nhân viên điều dưỡng được đào tạo và theo dõi chăm sóc ban đầu cho những bệnh nhân bị bệnh mãn tính nhằm nỗ lực ngăn ngừa các biến chứng nghiêm trọng. Nhưng thuật toán có nhiều khả năng đề xuất bệnh nhân da trắng cho các chương trình này hơn bệnh nhân da đen.
Nghiên cứu cho thấy rằng thuật toán sử dụng chi tiêu chăm sóc sức khỏe làm đại diện cho việc xác định nhu cầu chăm sóc sức khỏe của một cá nhân. Nhưng theo Khoa học Mỹchi phí chăm sóc sức khỏe của những bệnh nhân da đen ốm yếu ngang bằng với chi phí của những người da trắng khỏe mạnh hơn, có nghĩa là họ nhận được điểm số rủi ro thấp hơn ngay cả khi nhu cầu của họ nhiều hơn.
Các nhà nghiên cứu của nghiên cứu cho rằng một vài yếu tố có thể đã góp phần. Thứ nhất, những người da màu có nhiều khả năng có thu nhập thấp hơn, điều này, ngay cả khi được bảo hiểm, có thể khiến họ ít có khả năng tiếp cận dịch vụ chăm sóc y tế hơn. Sự thiên vị ngầm cũng có thể khiến người da màu nhận được dịch vụ chăm sóc chất lượng thấp hơn.
Trong khi nghiên cứu không nêu tên thuật toán hoặc nhà phát triển, các nhà nghiên cứu nói với Scientific American rằng họ đang làm việc với nhà phát triển để giải quyết tình hình.
Dataset đã đào tạo chatbot của Microsoft để phát ra các tweet phân biệt chủng tộc
Vào tháng 3 năm 2016, Microsoft đã biết rằng việc sử dụng các tương tác trên Twitter làm dữ liệu đào tạo cho các thuật toán học máy có thể mang lại kết quả đáng kinh ngạc.
Microsoft đã phát hành Tay, một chatbot AI, trên nền tảng truyền thông xã hội. Công ty đã mô tả nó như một thử nghiệm trong “sự hiểu biết về hội thoại”. Ý tưởng là chatbot sẽ đóng vai một cô gái tuổi teen và tương tác với các cá nhân thông qua Twitter bằng cách sử dụng kết hợp giữa học máy và xử lý ngôn ngữ tự nhiên. Microsoft đã gieo mầm nó bằng dữ liệu công khai ẩn danh và một số tài liệu do các diễn viên hài viết sẵn, sau đó đặt nó tự do để học hỏi và phát triển từ các tương tác của nó trên mạng xã hội.
Trong vòng 16 giờ, chatbot đã đăng hơn 95.000 tweet và những tweet đó nhanh chóng chuyển sang phân biệt chủng tộc, chủ nghĩa lệch lạc và bài Do Thái. Microsoft đã nhanh chóng tạm ngừng dịch vụ để điều chỉnh và cuối cùng đã rút phích cắm.
“Chúng tôi vô cùng xin lỗi vì những dòng tweet gây tổn thương và xúc phạm ngoài ý muốn từ Tay, không đại diện cho chúng tôi là ai hoặc chúng tôi đại diện cho điều gì, cũng như cách chúng tôi thiết kế Tay,” Peter Lee, phó chủ tịch công ty, Microsoft Research & Incubations (sau đó là phó công ty chủ tịch của Microsoft Healthcare), đã viết trong một đăng trên blog chính thức của Microsoft sau sự việc.
Lee lưu ý rằng người tiền nhiệm của Tay, Xiaoice, được Microsoft phát hành tại Trung Quốc vào năm 2014, đã trò chuyện thành công với hơn 40 triệu người trong hai năm trước khi Tay phát hành. Điều mà Microsoft không tính đến là một nhóm người dùng Twitter sẽ ngay lập tức bắt đầu đăng những bình luận phân biệt chủng tộc và chủ nghĩa sai lầm với Tay. Bot đã nhanh chóng học hỏi từ tài liệu đó và kết hợp nó vào các tweet của riêng mình.
“Mặc dù chúng tôi đã chuẩn bị cho nhiều kiểu lạm dụng hệ thống, nhưng chúng tôi đã thực hiện một sự giám sát quan trọng đối với cuộc tấn công cụ thể này. Kết quả là Tay đã tweet những lời lẽ và hình ảnh không phù hợp và đáng chê trách một cách ngông cuồng, ”Lee viết.
Giống như nhiều công ty lớn, Amazon khao khát các công cụ có thể giúp chức năng nhân sự của mình sàng lọc các ứng dụng để tìm ra những ứng viên tốt nhất. Vào năm 2014, Amazon bắt đầu làm việc trên phần mềm tuyển dụng hỗ trợ AI để thực hiện điều đó. Chỉ có một vấn đề: Hệ thống rất ưa thích các ứng viên nam. Trong năm 2018, Reuters đã phá vỡ tin tức mà Amazon đã có loại bỏ dự án.
Hệ thống của Amazon đã xếp hạng sao cho các ứng viên từ 1 đến 5. Tuy nhiên, các mô hình học máy ở trung tâm của hệ thống đã được đào tạo dựa trên các hồ sơ xin việc có giá trị 10 năm được gửi cho Amazon – hầu hết là từ nam giới. Kết quả của dữ liệu đào tạo đó, hệ thống bắt đầu xử phạt các cụm từ trong sơ yếu lý lịch bao gồm từ “phụ nữ” và thậm chí hạ cấp các ứng viên từ các trường đại học toàn nữ.
Vào thời điểm đó, Amazon cho biết công cụ này chưa bao giờ được các nhà tuyển dụng của Amazon sử dụng để đánh giá ứng viên.
Công ty đã cố gắng chỉnh sửa công cụ để làm cho nó trung lập, nhưng cuối cùng quyết định rằng nó không thể đảm bảo rằng nó sẽ không học được một số cách phân biệt đối xử khác để phân loại ứng viên và kết thúc dự án.
Target analytics đã vi phạm quyền riêng tư
Vào năm 2012, một dự án phân tích của gã khổng lồ bán lẻ Target đã giới thiệu mức độ mà các công ty có thể tìm hiểu về khách hàng từ dữ liệu của họ. Theo New York Times, vào năm 2002, bộ phận tiếp thị của Target bắt đầu tự hỏi làm thế nào nó có thể xác định được liệu khách hàng có đang mang thai hay không. Dòng điều tra đó dẫn đến một dự án phân tích dự đoán nổi tiếng sẽ khiến nhà bán lẻ vô tình tiết lộ cho gia đình một cô gái tuổi teen rằng cô ấy đang mang thai. Điều đó, đến lượt nó, sẽ dẫn đến tất cả các bài báo và blog tiếp thị trích dẫn sự việc như một phần của lời khuyên để tránh “yếu tố rùng rợn”.
Bộ phận tiếp thị của Target muốn xác định những người mang thai vì có những giai đoạn nhất định trong cuộc đời – quan trọng nhất là mang thai – khi mọi người có nhiều khả năng thay đổi hoàn toàn thói quen mua hàng của họ. Ví dụ: nếu Target có thể tiếp cận với khách hàng trong giai đoạn đó, thì nó có thể tạo ra những hành vi mới ở những khách hàng đó, khiến họ chuyển sang Target để mua hàng tạp hóa, quần áo hoặc các hàng hóa khác.
Giống như tất cả các nhà bán lẻ lớn khác, Target đã thu thập dữ liệu về khách hàng của mình thông qua mã người mua sắm, thẻ tín dụng, khảo sát, v.v. Nó trộn dữ liệu đó với dữ liệu nhân khẩu học và dữ liệu của bên thứ ba mà nó đã mua. Việc thu thập tất cả dữ liệu đó cho phép nhóm phân tích của Target xác định rằng có khoảng 25 sản phẩm được bán bởi Target có thể được phân tích cùng nhau để tạo ra điểm số “dự đoán mang thai”. Sau đó, bộ phận tiếp thị có thể nhắm mục tiêu đến những khách hàng có điểm số cao bằng các phiếu giảm giá và thông điệp tiếp thị.
Nghiên cứu bổ sung sẽ tiết lộ rằng việc nghiên cứu tình trạng sinh sản của khách hàng có thể khiến một số khách hàng cảm thấy rùng mình. Theo Times, công ty đã không lùi bước khỏi hoạt động tiếp thị có mục tiêu, nhưng đã bắt đầu trộn lẫn quảng cáo cho những thứ mà họ biết phụ nữ mang thai sẽ không mua – bao gồm cả quảng cáo cho máy cắt cỏ bên cạnh quảng cáo cho tã – để làm cho quảng cáo kết hợp cảm thấy ngẫu nhiên cho khách hàng.
[ad_2]
Nguồn:CIO