Simon Shi的小站

人工智能,机器学习 学习记录


  • Home

  • About

  • Tags

  • Categories

  • Archives

Paper_game_Bridge

Posted on 2019-10-29 | In Game , Imperfect Information Game , Bridge
[toc] Contract Bridgetrick-taking card game . 由一个叫牌阶段和一个打牌阶段组成 opponent(s) and partner 规则:同Skat类似分两个阶段,叫分和出牌阶段 4人,两两一组,没人13张牌,共计52张 打13轮,每轮一张(与Skat的出牌规则一致),赢一轮则称之为赢一墩。基本局要赢6墩。 无将(最高)、黑桃、红桃、方片、梅花(最低) 叫分:NT; 1H(赢7墩), 2C(赢8墩)… 出牌:同花色比大小,(有将牌,奖牌大);最大队赢一墩。 GIBNot Plan or mimic human PIMC, a brute force approach PIMC:当PIMC玩家move时,我们先创建一个虚拟的世界,对所有未观察到的变量赋值(当前游戏状态下)。 然后当成完全信息游戏PK。repeat 多次,选择平均效用最高的move。 strategy fusion non-locality Paper : GIBPaper :The State of Automated Bridge PlayPaul M Bethe, NY ...
Read more »

DeepStack to Texas Hold'em

Posted on 2019-10-24 | In Game , Imperfect Information Game , Texas
[toc] DeepStack 图 1:HUNL 中公开树的一部分。 图2:DeepStack架构: A: 公共树的推理,action probabilities for all cards B: evaluation function: 使用NN,该网络以当前迭代的公开状态和范围作为输入,然后输出两个玩家的反事实价值。 C: 随机生成poker situations(pot size, board cards, ranges),生成训练样本,供NN训练。 Continual re-solving 持续解决Limited depth lookahead via intuition 通过直觉实现有限深度前瞻Sound reasoning 合理推理DeepStack的深度有限的连续重算是可靠的。如果DeepStack的直觉是“好的”, 并且在每一个重新求解的步骤中都使用了“足够的”计算,那么DeepStack就扮演了一个任意接近于纳什均衡的近似。 Sparse lookahead trees 稀疏前瞻树reduction in the number of actions. Relati ...
Read more »

RL_NFSP

Posted on 2019-10-15 | In AI , RL
[TOC] Papers:2015 SFP《Fictitious self-play in extensive-form games》 Heinrich et al. (2015) UCL&&DeepMind 2016 [NFSP]《Deep Reinforcement Learning from Self-Play in Imperfect-Information Games 》 UCL: Johannes Heinrich 2019 [MC-NFSP]《Monte Carlo Neural Fictitious Self-Play: Approach to Approximate Nash Equilibrium of Imperfect-Information Games? 》 ZJU: Li Zhang Background:Extensive-form Game: ​ 扩展形式游戏是一种涉及多个代理的顺序交互模型 博弈论中,与正则形式相应,扩展形式(英语:Extensive-form game)通过树来描述博弈。每个节点(称作决策节点)表示博弈进 ...
Read more »

Summary of loss function in Machine Learning

Posted on 2019-10-12 | In AI , ML
[toc] ML损失函数0-1损失函数$$L(Y, f(X)) = \begin{cases}1, Y \neq f(X) \0, Y = f(X)\end{cases}$$ $$L(Y, f(X)) = \begin{cases}1 , |Y - f(X)| \geq T \0 , |Y = f(X)| < T\end{cases}$$ 绝对值损失函数$$L(Y, f(X)) = |Y - f(X)|$$ 平方损失函数实际结果和观测结果之间差距的平方和,一般用在线性回归中,(与最小二乘法应用场景类似)$$L(Y, f(X)) = \sum_{i=1}^{N} (y_i-f(x_i))^2$$ 对数损失函数主要在逻辑回归中使用,样本预测值和实际值的误差符合高斯分布,使用极大似然估计的方法,取对数得到损失函数:$$L(Y, P(Y|X)) = -logP(Y|X)$$对数损失函数包括entropy和softmax,一般在做分类问题的时候使用(而回归时多用绝对值损失(拉普拉斯分布时,μ值为中位数)和平方损失(高斯分布时,μ值为均值)) 指数损失函数$$L(Y|f(X)) = \ex ...
Read more »

Paper-MLL-NN

Posted on 2019-10-11 | In AI , ML
[toc] BP_MLL2006 《Multi-Label Neural Networks with Applications to Functional Genomics and Text Categorization》Min-Ling Zhang and Zhi-Hua Zhou. IEEE Transactions on Knowledge and Data Engineering 18, 10 (2006), 1338–1351. Architecture1、方差损失 global error$$E = \sum_{i=1}^{m}E_i$$m multi-label instances . Q lables$$E_i = \sum_{j=1}^{Q}(c_j^i - d_j^i)$$$c_j^i = c_j(X_i)$ is the actual output of the network on xi on the j-th class. $d^i_j$ is the desired output of $X_i$ on the j-th class. 取值为1,-1 =》 ...
Read more »

ML_entropy 信息伦与概率统计

Posted on 2019-10-11 | In AI , ML
熵;表示随机变量不确定性的度量。 随机变量X的熵定义:$$H(X) = -\sum_{i=1}^{n} p_i \log(p_i)$$熵只依赖于X的分布,而于X的取值无关。所以X的熵也记作H(p)$$H(p) = -\sum_{i=1}^{n} p_i \log(p_i)$$熵越大,随机变量的不确定性越大。$$0 \leq H(p) \leq \log n$$当随机变量只取0,1时,X的分布为$$P(X=1)=p, P(X=0)=(1-p), 0 \le p \le 1$$熵为$$H(p) =-p \log_2 p - (1-p) \log_2(1-p)$$二元信源的熵: 当P=0/1时,H(p) = 0 , 随机变量完全没有不确定性。
Read more »

【Paper Read】ML_mutil-lable 问题综述

Posted on 2019-10-09 | In AI , ML
多标签机器学习[toc] 《A Tutorial on Multilabel Learning 》 download pdf EVA GIBAJA, SEBASTIAN VENTURA 西班牙 科多巴大学 this article presents an up-to-date tutorial about multilabel learning that introduces the paradigm and describes the main contributions developed. evaluation measures, fields of application, trending topics, and resources are also presented. 本文介绍了一个关于多标签学习的最新教程,介绍了该范例,并描述了已开发的主要贡献。还介绍了评估措施、应用领域、趋势主题和资源。 categories and subject descriptors: h.2.8 [database management]: database applications—dat ...
Read more »

Paper-CV-Survey

Posted on 2019-09-20 | In CV , BaseWork
[toc] 计算机视觉分类:目标识别,应该是Object Recognition。 (分类) 目标检测,应该是Object Detection (定位,检测) 目标分割,应该是Object Segmentation,(语义分割,实例分割) 目标追踪,应该是Object Tracking 计算机视觉旨在识别和理解图像/视频中的内容,包含四大基本任务: 分类(图a)、 定位、检测(图b): Faster R-CNN和基于YOLO的目标检测的算法 语义分割(图c)、 实例分割(图d) :Mask R-CNN reference: zhihu csdn
Read more »

Game_Skat

Posted on 2019-09-19 | In Game , Imperfect Information Game
[toc] BackJTAKQ987 x 4 = 32 Rule: ​ Grand(J王牌) ​ Null (无王牌) ​ Suit(J王牌,Suit王牌) ​ https://www.pagat.com/schafkopf/skat.html J A 10 K Q 9 8 7 2 11 10 4 3 0 0 0 Skat: 《Doctor Paper》《2011 [Skat] Policy Based Inference in Trick-Taking Card Games 》 【博士论文】Jeffrey Richard Long 12345678910三个贡献【4】专家级计算机SKAT-AI (组合游戏树搜索、状态评估和隐藏信息推理三个核心方面的组合来实现这一性能)《M. Buro, J. Long, T. Furtak, and N. R. Sturtevant. Improving state evaluation, inference, and search in trick-based card games. In Proceedings of ...
Read more »

Game-Poker-Skat

Posted on 2019-09-18 | In Game
排序 A为11分、10为10分,K为4分、Q为3分,J为2分、9、8、7不算分,整副牌一共120分。牌序数从大到小是A>10>K>Q>9>8>7 梅花J>黑桃J>红桃J>方块J>王牌其他牌>非王牌其他牌。 牌型
Read more »
1…252627…29

Simon Shi

286 posts
132 categories
243 tags
RSS
© 2024 Simon Shi
Powered by Hexo
|
Theme — NexT.Muse v5.1.4