- 博客(14)
- 资源 (3)
- 论坛 (2)
- 收藏
- 关注
原创 CS294(285) Actor Critic算法系列
CS294(285) Actor Critic算法系列CS294(285) Actor Critic之agents(https://duanzhihua.blog.csd...
2019-11-24 19:31:00
627
原创 CS294(285) Actor Critic案例之路径工具类utils
CS294(285) Actor Critic案例之路径工具类utils 在CS294(285) Actor Critic系列文章中,我们将跟着CS294 28...
2019-11-18 20:28:01
415
原创 CS294(285) Actor Critic之Critic
CS294(285) Actor Critic系列CS294(285) Actor Critic之agents(https://duanzhihua.blog.csdn.net/article/details/103106090)CS294(285) Actor Critic之Critic构建基类BaseCriticclass BaseCritic(object): ...
2019-11-17 20:27:37
385
原创 CS294(285) Actor Critic之agents
CS294(285) Actor Critic之agents在CS294(285) Actor Critic系列文章中,我们跟着CS294 285的作业内容,一步一步的实现自己的演员-评论家算法。Actor Critic的分层架构图:演员-评论家算法的代理智能体:构建基类BaseAgentimport numpy as npimport tensorflow as tf...
2019-11-17 16:30:54
370
原创 Actor Critic算法
Actor Critic(直译为演员评判家算法,易理解):结合两个网络:演员网络Policy Gradient (Actor)+ 评判家网络Function Approximation (Critic), 演员Actor 基于概率表演动作行为, 评判家Critic 基于演员Actor 的行为进行评论打分, 演员Actor 根据评判家Critic 的评分改进表演行为的概率。钟摆游戏的动作是一...
2019-11-16 12:00:50
722
原创 Spark Structured Streaming 实现自定义数据源
Spark Structured Streaming 实现自定义数据源:Spark Streaming 查询使用微批处理引擎进行处理,微批处理引擎将 data streams 作为一系列小批处理作业进行处理,从Spark 2.3以来,Spark引入了一种新的低延迟处理模式,称为连续处理,可以实现毫秒级的端到端延迟。Spark Structured Streaming Demo:...
2019-11-16 09:30:19
776
原创 UC Berkeley AI Project MindsDB Time Series 时间序列算法体验
UC Berkeley AI Project MindsDB Time Series 时间序列算法体验 MindsDB是美国加州大学伯克利分校的开源研究项目!MindsDB的目标是让开发人员在他们的项目中使用人工神经网络变得非常简单,为所有能够接触到数据的人构建mindsdb,输入几行代码就能实现深度学习神经网络。MindsDB已发布V1.2.8版本。MindsDB的目标是让开发...
2019-11-13 17:27:28
464
原创 Policy Gradient (策略梯度算法)
Policy Gradient (策略梯度算法)前置基础知识:Reinforcement Learning 基本概念 Q Leaning算法原理 深度学习神经网络知识 Tensorflow、Pytorch、Python 概率论与数量统计、马尔可夫链、期望、方差 微积分、梯度求导策略梯度算法:直接根据当前的状态来选择动作。策略梯度的算法是回合更新,在回合中的中每一步记录状态、动作、奖...
2019-11-10 20:52:37
1467
原创 Double Deep Q Network 算法
Deep Q Network 算法:直接从下一个状态的Q目标值,选择动作概率的最大值。(Y值通过Q目标值的一张网络计算)Double Deep Q Network 算法:计算下一个状态的Q评估值的最大值,然后从下一个状态的Q目标值,选择动作q_next。(Y值通过Q评估值、Q目标值的双网计算)符号: :表示Q目标值神经网络(target_net)的网络参数: 表示...
2019-11-09 20:06:27
692
原创 Deep Q Network 算法
Deep Q Network 算法前置基础知识:Reinforcement Learning 基本概念 Q Leaning算法原理 深度学习神经网络知识 Tensorflow、Pytorch、Python 概率论与数量统计、马尔可夫链、期望、方差Q Leaning算法概述: Q Leaning算法 :在监督学习中,标签值y是一个固定的值,例如,输入一张图片,预测这张图...
2019-11-08 21:15:18
496
原创 Q_Learning、Sarsa、Sarsa_lambda
Q_Learning算法Sarsa算法Sarsa_lambda算法# -*- coding: utf-8 -*-"""This part of code is the Q learning brain, which is a brain of the agent.All decisions are made in here.View more on ...
2019-11-05 21:30:14
309
原创 Q_Learning_maze
maze_env.py# -*- coding: utf-8 -*-"""Reinforcement learning maze example.Red rectangle: explorer.Black rectangles: hells [reward = -1].Yellow bin circle: paradise...
2019-11-04 21:48:51
447
原创 Q-Learning算法(command_line_reinforcement_learning)
Q-Learning算法import numpy as npimport pandas as pdimport timenp.random.seed(2) # reproducibleN_STATES = 6 # the length of the 1 dimensional worldACTIONS = ['left', 'right'] # availa...
2019-11-03 17:32:02
367
tensorflow-1.15.0-cp36-cp36m-win_amd64.whl
2020-09-01
段智华的留言板
发表于 2020-01-02 最后回复 2020-04-30
CSDN博客请版主帮忙将文档恢复(第114课:SparkStreaming+Kafka+Spark SQL+TopN+Mysql+KafkaOffsetMon)
发表于 2016-06-11 最后回复 2017-12-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人 TA的粉丝