吴彦初:国际金黄金TD白银TD晚间走势分析及参考建议 玉渊谭天:中国市场这么大 谁不怦然心动”? 中芯国际光刻机供货被中止 替代概念股飙升(名单) 经济上极度贪婪”的陈刚受审 收财物近1.3亿元 这些绩优股受机构青睐 15股后市涨幅空间超两成 11月8日涨停板早知道:七大利好有望发酵 黄辰鑫:黄金区间震荡持久战 原油看涨不追涨 陈召锡:原油跳水如何操作 原油黄金走势分析操作建议 芯片一哥跳水大跌 A股替代概念股直线飙升(名单) 四创电子关于公司高级管理人员辞职的公告 阿里、京东、苏宁的双十一链”战 任正非这杯咖啡”信息量超大 主力资金:这只猪肉龙头股遭抢筹 19股资金流入超亿 农林牧渔获大单资金青睐 格力电器资金流出居首 格力突斥1亿成立电商公司 向谁下战书”? 李忠晟:下周一黄金会跌吗 下周黄金原油行情走势分析 一日暴涨千元后又迎暴跌行情!液化天然气价格坐过山车 未来怎么走? 全球商业新名片:小米的出海经 紫光展锐:已启动6G相关技术的预研储备 制定研发推进规划 悦刻电子烟下架后仍能谐音搜索 公司内部人士称系假货 深交所:加快推进包括创业板改革并试点注册制 预防人生疾病三痛:国内首款带状疱疹疫苗亮相进博会 商务部:中欧地理标志协定纳入双方各275项特色地理标志产品 2019中国国际珠宝展硬核升级 14日璀璨启幕 MSCI第三次扩容在即 2000亿资金跑步入场 助力A股走出慢牛行情? 河北将大幅缩小与京沪重点病诊治水平差距 联想杨元庆:PC仍是增长动力 移动业务将关注盈利性增长 11月7日晚间上市公司重要公告汇总 这些上市公司不惜上调价格 誓将回购进行到底 上海浦东排查私募情况 未按通知提交或被采取措施 QFII重仓指数创历史新高 "买大还是买小"私募有话说 桃李面包现22笔大宗交易 共成交23,800.00万元 马云虞锋对话:公司要做好必须有更多女性领导者 上海国际贸易单一窗口区块链+”多项成果齐发布 是自杀还是官方错杀? 墨迹科技IPO被否到底冤不冤? 明天又一批股票可能异动 MSCI年内第三次扩容 南京副市长冉华调研企业票据融资情况 同城票据网CEO曹石金陪同 重庆警方破获特大制售假章、假证案 查获假章假证1.5万余个 淮滨县纺织服装产业园建设稳步推进 武汉高校学生帮扶果农直播卖苹果 10天卖出6000斤 证监会:取消审核中泰证券首发事项 商务部:中美同意随协议进展分阶段取消加征关税 北京7个住宅项目已投质量潜在缺陷险 面积逾40万平米 社保基金连续持有36股 最长已坚守11年 深兰科技:携手泛海控股打造武汉CBD人工智能技术高地 我市开展建设领域拖欠农民工工资专项整改 2019年1-3季度中国电子信息制造业运行报告(完整版) GSMA Intelligence:未来中美日韩将主导5G的发展 2025年全球5G用户将有15.7亿人 福布斯发布中国富豪榜 二马拉动中国财富逆风前行 信托公司多业务层面试水区块链
您的位置:首页 >债券 >

算法帮助AI在传奇的Atari游戏中获胜

2015年,谷歌的DeepMind AI的任务是学习玩Atari视频游戏。它也非常成功,在视频弹球方面与人类玩家一样出色。但由于游戏的复杂性,除了简单的街机游戏之外,它开始挣扎,众所周知甚至未能收集传奇的20世纪80年代冒险游戏Montezuma's Revenge中的第一把钥匙。

然而,一种新方法导致了一种AI算法,该算法从错误中学习,并确定中间步骤的速度提高了10倍,在Google失败并成功自主玩Montezuma's Revenge之后取得了成功。

这项工作由Fabio Zambetta及其团队在澳大利亚墨尔本的RMIT大学进行。Zambetta 于2月1日在夏威夷举行的第33届AAAI人工智能会议上介绍了这一发现。

设计可以克服计划问题的人工智能,例如奖励不是很明显,是推动该领域最重要的挑战之一。

人工智能在冒险游戏中挣扎的原因是,在发现一些奖励之前,它认为没有动力选择一种行动方式而不是其他任何一种方式,例如实现爬梯或跳过坑到达更大目标的子目标水平。

他们感到困惑并无法确定前进的道路,而只是随意开始行动。

对于某些游戏,例如弹球,奖励在附近,算法获得所需的外部输入。

然而,在一个冒险游戏中,奖励更加分散,鸡和蛋的情况发展。该程序发现自己无法改善其游戏玩法,直到获得一些奖励,但在改进其游戏玩法之前不会找到奖励。

为了解决这个问题,Zambetta从其他电脑游戏中汲取灵感,如超级马里奥和Pacman,并引入了颗粒奖励,提供了小的中间奖励,并鼓励它探索和完成子目标。

“真正聪明的人工智能需要能够学会在模糊的环境中自主完成任务,”他说。

“我们已经证明,正确的算法可以使用更智能的方法改善结果,而不是纯粹粗暴地在非常强大的计算机上端到端地解决问题。”

这种方法意味着算法将更自然地行动,并且完成子目标的速度比其他AI方法快10倍。

“不仅我们的算法在玩Montezuma's Revenge时自动识别相关任务的速度比Google DeepMind快10倍,他们还表现出相对类似人类的行为,”Zambetta声称。

“例如,在你可以进入游戏的第二个屏幕之前,你需要确定一些子任务,例如爬梯子,跳过一个敌人,然后最终拿起钥匙,大致按照这个顺序。

“这最终会在很长一段时间后随机发生,但在我们的测试中如此自然地发生了某种意图。

“这使我们成为第一个完全自主的面向目标的代理商,与这些游戏中最先进的代理商真正竞争。”

虽然听起来微不足道,但这项工作在游戏之外可能很重要。根据Zambetta的说法,激励子目标可能有利于控制自动驾驶汽车的算法以及需要机器人助手在现实世界中实现目标的其他情况。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。