Cuộc cách mạng về Robot đang được đẩy mạnh phát triển, góp phần thúc đẩy xã hội loài người tiến gần hơn với Cuộc cách mạng Công nghiệp lần thứ 4. Cuộc cách mạng mà ở đó Robot có thể tự học và hiểu được cảm xúc cũng như suy nghĩ của con người. Robot tự chủ trong gia đình, trường học, văn phòng và các địa điểm công cộng khác, có thể tương tác với con người và Robot khác bằng một cách nào đó, từ đó Robot có thể giải quyết những nhu cầu thiết yếu của con người.
Để thiết kế Robot có thể “hiểu” được con người, các nhà khoa học về Robot đang tiến hành nghiên cứu tâm lý giao tiếp của con người. Các nhà khoa học đến từ Đại học Cornell cho rằng việc nhúng cảm giác vào Robot có thể dạy chúng tìm ra những tương tác vật lý. Họ mô tả điều đó bằng cách dựa vào xúc giác chứ không phải dựa vào thị giác.
Một máy ảnh USB bên trong Robot ghi lại bóng của các cử chỉ trên tay bề mặt Robot và phân tích chúng bằng phần mềm Machine Learning. Họ gọi phương pháp này là ShadowSense, được họ định nghĩa như một mối quan hệ giữa thị giác và xúc giác, mang lại độ phân giải cao và giá thành thấp của của cảm biến thị giác để tiến gần tới cảm nhận của xúc giác.
Đồng tác giả nghiên cứu Guy Hoffman của Viện Kỹ thuật Cơ khí và Hàng không Vũ trụ thuộc đại học Cornell cho rằng cảm biến chạm của các Robot thường được ứng dụng bởi cảm biến lực hoặc cảm biến điện dung. Hạn chế trong cách tiếp cận của nhóm nghiên cứu là ngay cả khi đạt được độ phân giải không gian thô vẫn cần nhiều cảm biến trong một không gian nhỏ.
Tuy nhiên, làm việc với Robot bơm hơi, Hoffman và nhóm nghiên cứu đã cài đặt một máy ảnh USB cấp cho người người dùng với một chiếc ống kính mắt cá cho một tầm nhìn rộng hơn.
Hoffman nói rằng: “Giả thiết rằng Robot thực sự rỗng và có một lớp bảo vệ mềm và trong suốt, chúng tôi có thể thực hiện tương tác bằng cách theo dõi những bóng chuyển động của hình ảnh được tạo ra bởi con người khi chạm vào Robot và chúng tôi có thể làm được điều đó với độ chính xác rất cao”. Họ sử dụng mạng nơ ron để có thể giải mã được hình ảnh đó. Robot có thể giải mã được năm cử chỉ khác nhau, bao gồm chạm một tay, chạm hai tay, trỏ tay, ôm và đấm với mức độ chính xác lên tới 87,5% đến 96% phụ thuộc vào điều kiện ánh sáng môi trường.
Đây không phải lần đầu tiên thị giác máy tính được sử dụng để cảm nhận xúc giác, dù cho quy mô và ứng dụng của ShadowSense là duy nhất. Hoffman cho rằng: “Nhiếp ảnh được sử dụng là công cụ chính để Robot có thể cảm nhận ngoài môi trường”. Ngược lại, Hoffman và các cộng sự muốn phát triển một cảm biến có thể cảm nhận được trên toàn bộ thiết bị.
Các ứng dụng tiềm năng cho ShadowSense bao gồm hướng dẫn Robot di động bằng cách sử dụng cảm ứng và màn hình tương tác, thứ ba là liên quan đến quyền riêng tư đặc biệt là những Robot tại nhà. Hoffman cho biết: “Chúng tôi có một bài báo khác hiện đang được xem xét cụ thể về khả năng phát hiện các cử chỉ xa hơn (ngoài lớp bọc của Robot)”. Bằng cách này, người sử dụng có thể che mờ đi camera của Robot của họ bằng một vật liệu làm mờ và vẫn cho phép nó có thể giải mã được hành động phụ thuộc vào bóng của hành động. Do đó, mặc dù nó bị cản trở bởi việc chụp ảnh độ phân giải cao của người dùng hoặc môi trường bên ngoài, việc sử dụng đúng tập dữ liệu đã được đào tạo, Robot có thể tiếp tục theo dõi một số loại hoạt động mà không cần tiếp xúc.
Tuy nhiên, Hoffman cho rằng, ShadowSense không thể làm việc tại nơi có ánh sáng kém. Nhiễu từ môi trường hoặc có bóng đổ từ các vật thể xung quanh cũng là yếu tố có thể gây cản trở việc phân loại ảnh. Việc chỉ dựa vào một máy ảnh cũng có thể là một điểm gây thất bại. Ông cho rằng: nếu nó trở thành một sảnh phẩm thương mại thì việc phát hiện hình ảnh phải được cải thiện.
Như vậy, các nhà nghiên cứu đã sử dụng phương pháp học chuyển giao – sử dụng Deep learning trong việc giải quyết vấn đề mới – việc phân tích hình ảnh. Hoffman cho rằng: “Một trong những vấn đề với nhiều lớp mạng Nơ ron là cần nhiều dữ liệu huấn luyện để đưa ra một dự đoán chính xác. Rõ ràng chúng tôi không có hàng triệu ví dụ về việc mọi người chạm vào một Robot rỗng. Nhưng chúng tôi có thể sử dụng các mạng dữ liệu được huấn luyện trừ trước dựa trên các hình ảnh chung mà chúng tôi có hàng tỷ và chúng tôi chỉ cần đào tạo lại các lớp cuối cùng của mạng dữ liệu của riêng”.
Đỗ Bá Phú, Đỗ Ngọc Quý (Theo (https://spectrum.ieee.org)