Paper_game_Bridge

Posted on 2019-10-29 | In Game , Imperfect Information Game , Bridge

[toc] Contract Bridgetrick-taking card game . 由一个叫牌阶段和一个打牌阶段组成 opponent(s) and partner 规则：同Skat类似分两个阶段，叫分和出牌阶段 4人，两两一组，没人13张牌，共计52张打13轮，每轮一张（与Skat的出牌规则一致），赢一轮则称之为赢一墩。基本局要赢6墩。无将（最高）、黑桃、红桃、方片、梅花（最低）叫分：NT； 1H(赢7墩), 2C（赢8墩）… 出牌：同花色比大小，（有将牌，奖牌大）；最大队赢一墩。 GIBNot Plan or mimic human PIMC, a brute force approach PIMC:当PIMC玩家move时，我们先创建一个虚拟的世界，对所有未观察到的变量赋值（当前游戏状态下）。然后当成完全信息游戏PK。repeat 多次，选择平均效用最高的move。 strategy fusion non-locality Paper : GIBPaper :The State of Automated Bridge PlayPaul M Bethe, NY ...

DeepStack to Texas Hold'em

Posted on 2019-10-24 | In Game , Imperfect Information Game , Texas

[toc] DeepStack 图 1：HUNL 中公开树的一部分。图2：DeepStack架构： A: 公共树的推理，action probabilities for all cards B: evaluation function: 使用NN，该网络以当前迭代的公开状态和范围作为输入，然后输出两个玩家的反事实价值。 C: 随机生成poker situations(pot size, board cards, ranges)，生成训练样本，供NN训练。 Continual re-solving 持续解决Limited depth lookahead via intuition 通过直觉实现有限深度前瞻Sound reasoning 合理推理DeepStack的深度有限的连续重算是可靠的。如果DeepStack的直觉是“好的”, 并且在每一个重新求解的步骤中都使用了“足够的”计算，那么DeepStack就扮演了一个任意接近于纳什均衡的近似。 Sparse lookahead trees 稀疏前瞻树reduction in the number of actions. Relati ...

RL_NFSP

Posted on 2019-10-15 | In AI , RL

[TOC] Papers:2015 SFP《Fictitious self-play in extensive-form games》 Heinrich et al. (2015) UCL&&DeepMind 2016 [NFSP]《Deep Reinforcement Learning from Self-Play in Imperfect-Information Games 》 UCL: Johannes Heinrich 2019 [MC-NFSP]《Monte Carlo Neural Fictitious Self-Play: Approach to Approximate Nash Equilibrium of Imperfect-Information Games? 》 ZJU: Li Zhang Background：Extensive-form Game: 扩展形式游戏是一种涉及多个代理的顺序交互模型博弈论中，与正则形式相应，扩展形式（英语：Extensive-form game）通过树来描述博弈。每个节点（称作决策节点）表示博弈进 ...

Summary of loss function in Machine Learning

Posted on 2019-10-12 | In AI , ML

[toc] ML损失函数0-1损失函数$$L(Y, f(X)) = \begin{cases}1, Y \neq f(X) \0, Y = f(X)\end{cases}$$ $$L(Y, f(X)) = \begin{cases}1 , |Y - f(X)| \geq T \0 , |Y = f(X)| < T\end{cases}$$ 绝对值损失函数$$L(Y, f(X)) = |Y - f(X)|$$ 平方损失函数实际结果和观测结果之间差距的平方和，一般用在线性回归中，(与最小二乘法应用场景类似)$$L(Y, f(X)) = \sum_{i=1}^{N} (y_i-f(x_i))^2$$ 对数损失函数主要在逻辑回归中使用，样本预测值和实际值的误差符合高斯分布，使用极大似然估计的方法，取对数得到损失函数：$$L(Y, P(Y|X)) = -logP(Y|X)$$对数损失函数包括entropy和softmax，一般在做分类问题的时候使用（而回归时多用绝对值损失（拉普拉斯分布时，μ值为中位数）和平方损失（高斯分布时，μ值为均值））指数损失函数$$L(Y|f(X)) = \ex ...

Paper-MLL-NN

Posted on 2019-10-11 | In AI , ML

[toc] BP_MLL2006 《Multi-Label Neural Networks with Applications to Functional Genomics and Text Categorization》Min-Ling Zhang and Zhi-Hua Zhou. IEEE Transactions on Knowledge and Data Engineering 18, 10 (2006), 1338–1351. Architecture1、方差损失 global error$$E = \sum_{i=1}^{m}E_i$$m multi-label instances . Q lables$$E_i = \sum_{j=1}^{Q}(c_j^i - d_j^i)$$$c_j^i = c_j(X_i)$ is the actual output of the network on xi on the j-th class. $d^i_j$ is the desired output of $X_i$ on the j-th class. 取值为1，-1 =》 ...

ML_entropy 信息伦与概率统计

Posted on 2019-10-11 | In AI , ML

熵；表示随机变量不确定性的度量。随机变量X的熵定义：$$H(X) = -\sum_{i=1}^{n} p_i \log(p_i)$$熵只依赖于X的分布，而于X的取值无关。所以X的熵也记作H(p)$$H(p) = -\sum_{i=1}^{n} p_i \log(p_i)$$熵越大，随机变量的不确定性越大。$$0 \leq H(p) \leq \log n$$当随机变量只取0，1时，X的分布为$$P(X=1)=p, P(X=0)=(1-p), 0 \le p \le 1$$熵为$$H(p) =-p \log_2 p - (1-p) \log_2(1-p)$$二元信源的熵: 当P=0/1时，H(p) = 0 , 随机变量完全没有不确定性。

【Paper Read】ML_mutil-lable 问题综述

Posted on 2019-10-09 | In AI , ML

多标签机器学习[toc] 《A Tutorial on Multilabel Learning 》 download pdf EVA GIBAJA， SEBASTIAN VENTURA 西班牙科多巴大学 this article presents an up-to-date tutorial about multilabel learning that introduces the paradigm and describes the main contributions developed. evaluation measures, fields of application, trending topics, and resources are also presented. 本文介绍了一个关于多标签学习的最新教程，介绍了该范例，并描述了已开发的主要贡献。还介绍了评估措施、应用领域、趋势主题和资源。 categories and subject descriptors: h.2.8 [database management]: database applications—dat ...

Paper-CV-Survey

Posted on 2019-09-20 | In CV , BaseWork

[toc] 计算机视觉分类：目标识别，应该是Object Recognition。（分类）目标检测，应该是Object Detection （定位，检测）目标分割，应该是Object Segmentation，(语义分割，实例分割) 目标追踪，应该是Object Tracking 计算机视觉旨在识别和理解图像/视频中的内容，包含四大基本任务：分类(图a)、定位、检测(图b): Faster R-CNN和基于YOLO的目标检测的算法语义分割(图c)、实例分割(图d) :Mask R-CNN reference: zhihu csdn

Game_Skat

Posted on 2019-09-19 | In Game , Imperfect Information Game

[toc] BackJTAKQ987 x 4 = 32 Rule: Grand（J王牌） Null （无王牌） Suit（J王牌，Suit王牌） https://www.pagat.com/schafkopf/skat.html J A 10 K Q 9 8 7 2 11 10 4 3 0 0 0 Skat: 《Doctor Paper》《2011 [Skat] Policy Based Inference in Trick-Taking Card Games 》【博士论文】Jeffrey Richard Long 12345678910三个贡献【4】专家级计算机SKAT-AI (组合游戏树搜索、状态评估和隐藏信息推理三个核心方面的组合来实现这一性能)《M. Buro, J. Long, T. Furtak, and N. R. Sturtevant. Improving state evaluation, inference, and search in trick-based card games. In Proceedings of ...

Game-Poker-Skat

Posted on 2019-09-18 | In Game

排序 A为11分、10为10分，K为4分、Q为3分，J为2分、9、8、7不算分，整副牌一共120分。牌序数从大到小是A>10>K>Q>9>8>7 梅花J>黑桃J>红桃J>方块J>王牌其他牌>非王牌其他牌。牌型