Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Mới phát hành bài viết, điều này cho thấy một xu hướng tốt trong học máy trong những năm gần đây. Tóm lại: số lượng công ty khởi nghiệp về học máy đã giảm mạnh trong hai năm qua.

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?
Tốt. Chúng ta hãy xem “liệu ​​bong bóng có vỡ hay không”, “làm thế nào để tiếp tục sống” và nói xem ngay từ đầu sự lộn xộn này đến từ đâu.

Đầu tiên, hãy nói về yếu tố thúc đẩy đường cong này là gì. cô ấy đến từ đâu? Họ có thể sẽ nhớ mọi thứ chiến thắng học máy vào năm 2012 tại cuộc thi ImageNet. Rốt cuộc, đây là sự kiện toàn cầu đầu tiên! Nhưng thực tế không phải vậy. Và sự phát triển của đường cong bắt đầu sớm hơn một chút. Tôi sẽ chia nó thành nhiều điểm.

  1. Năm 2008 chứng kiến ​​sự xuất hiện của thuật ngữ “dữ liệu lớn”. Sản phẩm thực sự bắt đầu xuất hiện kể từ năm 2010. Dữ liệu lớn có liên quan trực tiếp đến học máy. Không có dữ liệu lớn thì không thể hoạt động ổn định các thuật toán tồn tại vào thời điểm đó. Và đây không phải là mạng lưới thần kinh. Cho đến năm 2012, mạng lưới thần kinh chỉ dành riêng cho thiểu số. Nhưng sau đó, các thuật toán hoàn toàn khác bắt đầu hoạt động, vốn đã tồn tại trong nhiều năm, thậm chí nhiều thập kỷ: SVM(1963,1993), Rừng ngẫu nhiên (1995) AdaBoost (2003),... Các công ty khởi nghiệp trong những năm đó chủ yếu gắn liền với việc xử lý tự động dữ liệu có cấu trúc: máy tính tiền, người dùng, quảng cáo, v.v.

    Một dẫn xuất của làn sóng đầu tiên này là một tập hợp các khung như XGBoost, CatBoost, LightGBM, v.v.

  2. Năm 2011-2012 mạng lưới thần kinh tích chập đã giành chiến thắng trong một số cuộc thi nhận dạng hình ảnh. Việc sử dụng thực tế của họ có phần bị trì hoãn. Tôi có thể nói rằng các giải pháp và khởi nghiệp có ý nghĩa to lớn đã bắt đầu xuất hiện vào năm 2014. Phải mất hai năm để hiểu rằng các nơ-ron vẫn hoạt động, để tạo ra các khuôn khổ thuận tiện có thể được cài đặt và khởi chạy trong thời gian hợp lý, để phát triển các phương pháp giúp ổn định và tăng tốc thời gian hội tụ.

    Mạng tích chập giúp giải quyết các vấn đề về thị giác máy tính: phân loại hình ảnh và đối tượng trong ảnh, phát hiện đối tượng, nhận dạng đối tượng và con người, cải thiện hình ảnh, v.v.

  3. 2015-2017. Sự bùng nổ của các thuật toán và dự án dựa trên các mạng lặp lại hoặc các mạng tương tự của chúng (LSTM, GRU, TransformerNet, v.v.). Các thuật toán chuyển giọng nói thành văn bản và hệ thống dịch máy hoạt động tốt đã xuất hiện. Chúng một phần dựa trên mạng tích chập để trích xuất các tính năng cơ bản. Một phần là do chúng tôi đã học cách thu thập các tập dữ liệu thực sự lớn và tốt.

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

“Bong bóng đã vỡ chưa? Sự cường điệu có quá nóng không? Họ có chết như một blockchain không?”
Nếu không thì! Ngày mai Siri sẽ ngừng hoạt động trên điện thoại của bạn và ngày mốt Tesla sẽ không biết sự khác biệt giữa rẽ và kangaroo.

Mạng lưới thần kinh đã hoạt động. Chúng có trong hàng chục thiết bị. Chúng thực sự cho phép bạn kiếm tiền, thay đổi thị trường và thế giới xung quanh bạn. Sự cường điệu có vẻ hơi khác một chút:

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Chỉ là mạng lưới thần kinh không còn là điều gì mới mẻ nữa. Vâng, nhiều người có kỳ vọng cao. Nhưng một số lượng lớn các công ty đã học cách sử dụng tế bào thần kinh và tạo ra các sản phẩm dựa trên chúng. Tế bào thần kinh cung cấp chức năng mới, cho phép bạn cắt giảm công việc và giảm giá dịch vụ:

  • Các công ty sản xuất đang tích hợp các thuật toán để phân tích các khuyết tật trên dây chuyền sản xuất.
  • Trang trại chăn nuôi mua hệ thống để kiểm soát bò.
  • Tự động kết hợp.
  • Trung tâm cuộc gọi tự động.
  • Bộ lọc trong SnapChat. (à, ít nhất cũng có thứ gì đó hữu ích!)

Nhưng điều quan trọng nhất và không phải là điều hiển nhiên nhất: “Không còn ý tưởng mới nào nữa, nếu không chúng sẽ không mang lại vốn ngay lập tức”. Mạng lưới thần kinh đã giải quyết được hàng tá vấn đề. Và họ sẽ quyết định nhiều hơn nữa. Tất cả những ý tưởng hiển nhiên tồn tại đã tạo ra nhiều công ty khởi nghiệp. Nhưng mọi thứ trên bề mặt đều đã được thu thập. Trong hai năm qua, tôi chưa hề nảy ra một ý tưởng mới nào về việc sử dụng mạng lưới thần kinh. Không có một cách tiếp cận mới nào cả (à, được rồi, có một số vấn đề với GAN).

Và mỗi lần khởi động tiếp theo ngày càng phức tạp hơn. Nó không còn cần đến hai người huấn luyện một nơ-ron bằng cách sử dụng dữ liệu mở. Nó đòi hỏi các lập trình viên, một máy chủ, một nhóm đánh dấu, sự hỗ trợ phức tạp, v.v.

Kết quả là có ít công ty khởi nghiệp hơn. Nhưng có nhiều sản xuất hơn. Cần thêm tính năng nhận dạng biển số xe? Có hàng trăm chuyên gia có kinh nghiệm liên quan trên thị trường. Bạn có thể thuê ai đó và trong vài tháng nữa nhân viên của bạn sẽ tạo ra hệ thống. Hoặc mua sẵn. Nhưng làm một công ty khởi nghiệp mới?.. Thật điên rồ!

Bạn cần tạo một hệ thống theo dõi khách truy cập - tại sao phải trả tiền cho nhiều giấy phép khi bạn có thể tự làm trong 3-4 tháng, mài giũa nó cho doanh nghiệp của mình.

Giờ đây, mạng lưới thần kinh đang đi theo con đường giống như hàng chục công nghệ khác đã đi qua.

Bạn có nhớ khái niệm “nhà phát triển trang web” đã thay đổi như thế nào kể từ năm 1995 không? Thị trường vẫn chưa bão hòa với các chuyên gia. Có rất ít chuyên gia. Nhưng tôi có thể cá rằng trong 5-10 năm nữa sẽ không có nhiều khác biệt giữa một lập trình viên Java và một nhà phát triển mạng nơ-ron. Sẽ có đủ cả hai chuyên gia trên thị trường.

Đơn giản là sẽ có một loại vấn đề có thể được giải quyết bằng tế bào thần kinh. Một nhiệm vụ đã phát sinh - thuê một chuyên gia.

"Cái gì tiếp theo? Trí tuệ nhân tạo đã hứa ở đâu?”

Nhưng ở đây có một sự hiểu lầm nhỏ nhưng thú vị :)

Rõ ràng, kho công nghệ tồn tại ngày nay sẽ không đưa chúng ta đến trí tuệ nhân tạo. Các ý tưởng và tính mới của chúng phần lớn đã cạn kiệt. Hãy nói về những gì giữ mức độ phát triển hiện tại.

Hạn chế

Hãy bắt đầu với những chiếc xe tự lái. Có vẻ như rõ ràng là có thể tạo ra những chiếc ô tô tự động hoàn toàn với công nghệ ngày nay. Nhưng điều này sẽ xảy ra trong bao nhiêu năm thì không rõ ràng. Tesla tin rằng điều này sẽ xảy ra trong vài năm nữa -


Có nhiều người khác các chuyên gia, người ta ước tính là 5-10 năm.

Theo tôi, rất có thể trong 15 năm nữa, cơ sở hạ tầng của các thành phố sẽ tự thay đổi theo hướng mà sự xuất hiện của ô tô tự hành sẽ trở thành tất yếu và sẽ trở thành sự tiếp nối của nó. Nhưng điều này không thể được coi là trí thông minh. Tesla hiện đại là một hệ thống rất phức tạp để lọc, tìm kiếm và đào tạo lại dữ liệu. Đây là các quy tắc-quy tắc-quy tắc, thu thập dữ liệu và lọc chúng (ở đây đây Tôi đã viết thêm một chút về điều này hoặc xem từ điều này điểm).

Vấn đề đầu tiên

Và đây là nơi chúng ta thấy vấn đề cơ bản đầu tiên. Dữ liệu lớn. Đây chính xác là những gì đã khai sinh ra làn sóng mạng lưới thần kinh và học máy hiện nay. Ngày nay, để làm một việc gì đó phức tạp và tự động, bạn cần rất nhiều dữ liệu. Không chỉ nhiều mà là rất, rất nhiều. Chúng tôi cần các thuật toán tự động để thu thập, đánh dấu và sử dụng chúng. Chúng tôi muốn làm cho ô tô nhìn thấy những chiếc xe tải hướng về phía mặt trời - trước tiên chúng tôi phải thu thập đủ số lượng. Chúng tôi muốn chiếc xe không bị phát điên với một chiếc xe đạp được bắt vít vào cốp xe - nhiều mẫu hơn.

Hơn nữa, một ví dụ là không đủ. Hàng trăm? Hàng ngàn?

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Vấn đề thứ hai

Vấn đề thứ hai - trực quan hóa những gì mạng lưới thần kinh của chúng ta đã hiểu. Đây là một nhiệm vụ rất không hề nhỏ. Cho đến nay, ít người hiểu được cách hình dung điều này. Những bài viết này rất gần đây, đây chỉ là một vài ví dụ, ngay cả khi còn xa:
Hình dung nỗi ám ảnh với kết cấu. Nó cho thấy rõ tế bào thần kinh có xu hướng tập trung vào những gì + những gì nó coi là thông tin bắt đầu.

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?
Hình dung Sự chú ý tại bản dịch. Trên thực tế, sự thu hút thường có thể được sử dụng một cách chính xác để chỉ ra nguyên nhân gây ra phản ứng trên mạng như vậy. Tôi đã thấy những điều như vậy đối với cả giải pháp gỡ lỗi và sản phẩm. Có rất nhiều bài viết về chủ đề này. Nhưng dữ liệu càng phức tạp thì càng khó hiểu cách đạt được hình ảnh trực quan mạnh mẽ.

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Vâng, vâng, tập hợp cũ hay “xem có gì bên trong lưới bộ lọc" Những bức ảnh này đã phổ biến cách đây 3-4 năm nhưng mọi người nhanh chóng nhận ra rằng những bức ảnh này tuy đẹp nhưng không có nhiều ý nghĩa.

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Tôi chưa đề cập đến hàng tá tiện ích, phương pháp, thủ thuật, nghiên cứu khác về cách hiển thị nội dung bên trong mạng. Những công cụ này có hoạt động không? Họ có giúp bạn nhanh chóng hiểu vấn đề là gì và gỡ lỗi mạng không?.. Nhận được phần trăm cuối cùng? Chà, nó gần giống nhau:

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Bạn có thể xem bất kỳ cuộc thi nào trên Kaggle. Và mô tả cách mọi người đưa ra quyết định cuối cùng. Chúng tôi đã xếp chồng 100-500-800 đơn vị mô hình và nó đã hoạt động!

Tất nhiên là tôi đang phóng đại. Nhưng những cách tiếp cận này không cung cấp câu trả lời nhanh chóng và trực tiếp.

Có đủ kinh nghiệm, đã xem xét các lựa chọn khác nhau, bạn có thể đưa ra phán quyết về lý do tại sao hệ thống của bạn lại đưa ra quyết định như vậy. Nhưng sẽ rất khó để điều chỉnh hành vi của hệ thống. Cài đặt một chiếc nạng, di chuyển ngưỡng, thêm tập dữ liệu, sử dụng mạng phụ trợ khác.

Vấn đề thứ ba

Vấn đề cơ bản thứ ba — lưới dạy số liệu thống kê, không phải logic. Theo thống kê điều này khuôn mặt:

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Về mặt logic, nó không giống lắm. Mạng lưới thần kinh không học bất cứ điều gì phức tạp trừ khi chúng bị ép buộc. Họ luôn dạy những dấu hiệu đơn giản nhất có thể. Bạn có mắt, mũi, đầu không? Vậy ra đây là khuôn mặt! Hoặc đưa ra một ví dụ trong đó mắt không có nghĩa là khuôn mặt. Và một lần nữa - hàng triệu ví dụ.

có rất nhiều phòng ở dưới cùng

Tôi có thể nói rằng chính ba vấn đề toàn cầu này hiện đang hạn chế sự phát triển của mạng lưới thần kinh và học máy. Và khi những vấn đề này không hạn chế nó, nó đã được sử dụng tích cực.

Đây là kết thúc? Mạng lưới thần kinh có hoạt động không?

Không xác định. Nhưng tất nhiên mọi người đều hy vọng là không.

Có nhiều cách tiếp cận và hướng đi để giải quyết các vấn đề cơ bản mà tôi đã nêu ở trên. Nhưng cho đến nay, chưa có cách tiếp cận nào trong số này có thể làm được điều gì đó mới về cơ bản, để giải quyết một vấn đề vẫn chưa được giải quyết. Cho đến nay, tất cả các dự án cơ bản đều đang được thực hiện trên nền tảng các phương pháp tiếp cận ổn định (Tesla), hoặc vẫn là dự án thử nghiệm của các viện, tập đoàn (Google Brain, OpenAI).

Nói một cách đại khái, hướng chính là tạo ra một số biểu diễn cấp cao của dữ liệu đầu vào. Theo một nghĩa nào đó, "ký ức". Ví dụ đơn giản nhất về bộ nhớ là nhiều cách “Nhúng” - biểu diễn hình ảnh. Vâng, ví dụ, tất cả các hệ thống nhận dạng khuôn mặt. Mạng học cách thu được từ một khuôn mặt một số biểu diễn ổn định không phụ thuộc vào góc quay, ánh sáng hoặc độ phân giải. Về cơ bản, mạng giảm thiểu số liệu “các khuôn mặt khác nhau thì ở xa” và “các khuôn mặt giống nhau thì ở gần”.

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Để đào tạo như vậy, cần có hàng chục, hàng trăm nghìn ví dụ. Nhưng kết quả mang lại một số nguyên tắc cơ bản của “Học một lần”. Bây giờ chúng ta không cần hàng trăm khuôn mặt để nhớ một người. Chỉ một khuôn mặt và đó là tất cả chúng ta hãy cùng tìm hiểu!
Chỉ có một vấn đề... Lưới chỉ có thể học các đối tượng khá đơn giản. Khi cố gắng phân biệt không phải khuôn mặt mà là "người qua quần áo" (nhiệm vụ Nhận dạng lại) - chất lượng giảm theo nhiều bậc độ lớn. Và mạng không còn có thể học được những thay đổi khá rõ ràng về góc độ.

Và học hỏi từ hàng triệu ví dụ cũng là một điều thú vị.

Có công việc để giảm đáng kể các cuộc bầu cử. Ví dụ, người ta có thể nhớ ngay đến một trong những tác phẩm đầu tiên về Học OneShot từ Google:

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Có rất nhiều tác phẩm như vậy, chẳng hạn 1 hoặc 2 hoặc 3.

Có một điểm trừ - thông thường quá trình đào tạo sẽ hoạt động tốt trên một số ví dụ đơn giản, “MNIST”. Và khi chuyển sang các tác vụ phức tạp, bạn cần một cơ sở dữ liệu lớn, một mô hình đối tượng hoặc một loại phép thuật nào đó.
Nhìn chung, công việc đào tạo One-Shot là một chủ đề rất thú vị. Bạn tìm thấy rất nhiều ý tưởng. Nhưng phần lớn, hai vấn đề mà tôi đã liệt kê (đào tạo trước trên một tập dữ liệu khổng lồ/sự không ổn định trên dữ liệu phức tạp) cản trở rất nhiều đến việc học.

Mặt khác, GAN—mạng đối thủ tổng hợp—tiếp cận chủ đề Nhúng. Có lẽ bạn đã đọc rất nhiều bài viết trên Habré về chủ đề này. (1, 2,3)
Một tính năng của GAN là hình thành một số không gian trạng thái bên trong (về cơ bản giống như Nhúng), cho phép bạn vẽ một hình ảnh. Nó có thể khuôn mặt, có thể hoạt động.

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Vấn đề với GAN là đối tượng được tạo ra càng phức tạp thì càng khó mô tả nó theo logic “trình tạo-phân biệt đối xử”. Kết quả là, ứng dụng thực sự duy nhất của GAN được nhắc đến là DeepFake, một lần nữa, ứng dụng này thao túng các biểu hiện trên khuôn mặt (có cơ sở rất lớn).

Tôi đã thấy rất ít công dụng hữu ích khác. Thông thường một số loại thủ thuật liên quan đến việc hoàn thiện các bản vẽ của bức tranh.

Và một lần nữa. Không ai biết điều này sẽ cho phép chúng ta tiến tới một tương lai tươi sáng hơn như thế nào. Việc thể hiện logic/không gian trong mạng lưới thần kinh là tốt. Nhưng chúng ta cần một số lượng lớn các ví dụ, chúng ta không hiểu bản thân nơ-ron thể hiện điều này như thế nào, chúng ta không hiểu làm thế nào để khiến nơ-ron ghi nhớ một số ý tưởng thực sự phức tạp.

Học tăng cường - đây là một cách tiếp cận từ một hướng hoàn toàn khác. Chắc chắn bạn còn nhớ Google đã đánh bại mọi người trong Go như thế nào. Những chiến thắng gần đây trong Starcraft và Dota. Nhưng ở đây mọi thứ không hề màu hồng và đầy hứa hẹn. Anh ấy nói hay nhất về RL và sự phức tạp của nó bài viết này.

Tóm tắt ngắn gọn những gì tác giả đã viết:

  • Các mẫu ban đầu không vừa/hoạt động kém trong hầu hết các trường hợp
  • Các vấn đề thực tế dễ giải quyết hơn bằng những cách khác. Boston Dynamics không sử dụng RL do tính phức tạp/không thể đoán trước/phức tạp tính toán của nó
  • Để RL hoạt động, bạn cần một hàm phức tạp. Thường khó tạo/ghi
  • Khó huấn luyện mô hình. Bạn phải mất rất nhiều thời gian để tăng tốc và thoát ra khỏi mức tối ưu cục bộ
  • Kết quả là khó lặp lại mô hình, mô hình không ổn định với những thay đổi nhỏ nhất
  • Thường phù hợp với một số mẫu ngẫu nhiên, thậm chí là trình tạo số ngẫu nhiên

Điểm mấu chốt là RL chưa hoạt động trong sản xuất. Google có một số thử nghiệm ( 1, 2 ). Nhưng tôi chưa thấy một hệ thống sản phẩm nào cả.

Bộ nhớ. Nhược điểm của mọi thứ được mô tả ở trên là thiếu cấu trúc. Một trong những cách tiếp cận để cố gắng giải quyết tất cả những điều này là cung cấp cho mạng lưới thần kinh quyền truy cập vào bộ nhớ riêng biệt. Để cô có thể ghi lại và viết lại kết quả các bước của mình ở đó. Sau đó, mạng lưới thần kinh có thể được xác định bởi trạng thái bộ nhớ hiện tại. Điều này rất giống với bộ xử lý và máy tính cổ điển.

Nổi tiếng và phổ biến nhất bài viết - từ DeepMind:

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Có vẻ như đây là chìa khóa để hiểu về trí thông minh? Nhưng có lẽ là không. Hệ thống vẫn cần một lượng dữ liệu khổng lồ để đào tạo. Và nó hoạt động chủ yếu với dữ liệu dạng bảng có cấu trúc. Hơn nữa, khi Facebook quyết định một vấn đề tương tự, sau đó họ đi theo con đường “bắt vít bộ nhớ, chỉ cần làm cho nơ-ron phức tạp hơn và có nhiều ví dụ hơn - và nó sẽ tự học”.

gỡ rối. Một cách khác để tạo ra ký ức có ý nghĩa là sử dụng các phần nhúng tương tự, nhưng trong quá trình đào tạo, hãy đưa ra các tiêu chí bổ sung cho phép bạn làm nổi bật “ý nghĩa” trong đó. Ví dụ: chúng tôi muốn đào tạo một mạng lưới thần kinh để phân biệt hành vi của con người trong cửa hàng. Nếu đi theo con đường tiêu chuẩn, chúng tôi sẽ phải tạo ra hàng chục mạng. Một là tìm người, hai là xác định xem người đó đang làm gì, thứ ba là tuổi tác, thứ tư là giới tính. Logic riêng biệt xem xét phần cửa hàng nơi nó thực hiện/được đào tạo để thực hiện việc này. Cái thứ ba xác định quỹ đạo của nó, v.v.

Hoặc, nếu có lượng dữ liệu vô hạn thì có thể huấn luyện một mạng cho tất cả các kết quả có thể xảy ra (rõ ràng là không thể thu thập được một mảng dữ liệu như vậy).

Phương pháp giải rối cho chúng ta biết - hãy huấn luyện mạng để chính nó có thể phân biệt giữa các khái niệm. Vì vậy, nó sẽ hình thành một phần nhúng dựa trên video, trong đó một khu vực sẽ xác định hành động, một khu vực sẽ xác định vị trí trên sàn kịp thời, một khu vực sẽ xác định chiều cao của người đó và một khu vực sẽ xác định giới tính của người đó. Đồng thời, khi đào tạo, tôi gần như không muốn nhắc mạng những khái niệm chính như vậy mà để mạng làm nổi bật và nhóm các lĩnh vực. Có khá nhiều bài viết như vậy (một số trong đó 1, 2, 3) và nói chung chúng khá lý thuyết.

Nhưng hướng đi này, ít nhất về mặt lý thuyết, sẽ giải quyết được các vấn đề được liệt kê ở phần đầu.

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Phân rã hình ảnh theo các thông số “màu tường/màu sàn/hình dạng vật thể/màu vật thể/v.v.”

Bong bóng học máy đã vỡ hay đây là sự khởi đầu của một bình minh mới?

Phân tích khuôn mặt theo các thông số “kích thước, lông mày, hướng, màu da, v.v.”

Khác

Có nhiều lĩnh vực khác, không quá toàn cầu, cho phép bạn bằng cách nào đó giảm bớt cơ sở dữ liệu, làm việc với dữ liệu không đồng nhất hơn, v.v.

Chú ý. Có lẽ không có ý nghĩa gì nếu tách nó ra thành một phương pháp riêng biệt. Chỉ là một cách tiếp cận nâng cao người khác. Nhiều bài viết dành riêng cho anh ấy (1,2,3). Điểm chú ý là nâng cao khả năng phản hồi của mạng cụ thể đối với các đối tượng quan trọng trong quá trình đào tạo. Thông thường bằng một số loại chỉ định mục tiêu bên ngoài hoặc một mạng nhỏ bên ngoài.

mô phỏng 3D. Nếu bạn tạo một công cụ 3D tốt, bạn thường có thể bao phủ 90% dữ liệu huấn luyện bằng nó (tôi thậm chí còn thấy một ví dụ trong đó gần 99% dữ liệu được bao phủ bởi một công cụ tốt). Có nhiều ý tưởng và thủ thuật về cách làm cho mạng được đào tạo trên công cụ 3D hoạt động bằng cách sử dụng dữ liệu thực (Tinh chỉnh, chuyển kiểu, v.v.). Nhưng thường thì việc tạo ra một công cụ tốt còn khó hơn nhiều so với việc thu thập dữ liệu. Ví dụ khi động cơ được tạo ra:
Đào tạo robot (google, khu vườn trí tuệ)
đào tạo sự công nhận hàng hóa trong cửa hàng (nhưng trong hai dự án chúng tôi đã thực hiện, chúng tôi có thể dễ dàng thực hiện mà không cần đến nó).
Đào tạo tại Tesla (một lần nữa, video ở trên).

Những phát hiện

Theo một nghĩa nào đó, toàn bộ bài viết là kết luận. Có lẽ thông điệp chính mà tôi muốn đưa ra là “phần mềm miễn phí đã hết, tế bào thần kinh không còn cung cấp các giải pháp đơn giản nữa”. Bây giờ chúng ta cần phải làm việc chăm chỉ để đưa ra những quyết định phức tạp. Hoặc làm việc chăm chỉ làm nghiên cứu khoa học phức tạp.

Nói chung chủ đề này còn gây tranh cãi. Có lẽ độc giả có nhiều ví dụ thú vị hơn?

Nguồn: www.habr.com

Thêm một lời nhận xét