• PagedAttention

    PagedAttention(PA)借鉴了操作系统中分页的思想。它将内存划分为固定大小的块(页),允许内存非连续存储,减少内存碎片。并且支持内存共享,极大地提高了内存的利用率。 操作系统中的内存管理系统在了解PA之前,我们先看看操作系统是如何管理内存的。假如一台电脑上的操作系统,去掉操作系统自己要用的内存,电脑上还有长度为N的内存可用,现在一个进程向操作系统申请一段长度为n的内存,应该如何分...
  • 从transformer到PD分离

    PD分离是一种大模型推理加速技术,且只能用在decoder-only架构的模型上。它将推理时的prefill部分和decoder部分分别在不同硬件上完成,加快模型推理的速度。 transformer结构目前,AI技术已经毫无争议的成为了人类目前最重要的发明之一。大语言模型(LLM),多模态模型,扩散模型(diffusion)等大模型成为人们创造新应用的神兵利器,而目前所有大模型的底层结构全都...
  • 如何在不知道香橙派IP的情况下连接到香橙派

    环境 windows11 professional 香橙派(树莓派和服务器应该也可以) 🚀️:服务器可以直接通过iBMC操作,不需要此方法 🏮:香橙派必须已经安装好操作系统,且得知用户名和密码 原理:开启电脑的网络共享,将电脑作为一个DHCP(动态主机配置协议,RFC 2131)服务器,为香橙派分配一个IP,之后通过ARP(地址解析协议,RFC 826)获得其IP。 ...
  • 物理机openeuler安装文档

    在openeuler官网下载合适的镜像文件openEuler-XXXX.iso 在下电情况下链接镜像文件,选择启动项为光驱,启动服务器物理机。 选择安装欧拉系统(install,也可以先测试testing),设置安装盘,网络(也可以在安装好后设置),管理员(非root,创建一个普通用户,赋予管理员权限) 安装好后,重启服务器 设置网络(若安装系统时设置好了则跳过),运行命令$ nmcli ...
  • openEuler22.03安装git-lfs

    本文参考此文 由于openeuler中的dnf包中没有git-lfs,需要自己clone git-lfs的源码,并构建rpm包,最后通过dnf的安装工具安装到计算机中。 #下载git-lfs构建脚本和源码git clone https://gitee.com/src-openeuler/git-lfs #进入文件夹cd git-lfs #安装rpm-build工具(root权限)dnf ...
  • hello world

    第一篇文章
1