AI 大模型能力,已经全面进入了谷歌工具包。
机器之心 · 2024-08-09 17:37:00
Google DeepMind、柏林工业大学(TU Berlin)的研究人员提出了一种名为 SO3krates 的 transformer 架构,它将稀疏等变表示(欧几里得变量)与分离不变和等变信息的自注意力机制相结合,从而无需昂贵的张量积。
机器之心 · 2024-08-09 17:23:00
阿里通义团队开源新一代数学模型Qwen2-Math,包含1.5B、7B、72B三个参数的基础模型和指令微调模型
机器之心 · 2024-08-09 15:42:00
甬江论坛2024即将于8月15日截止申请,当前已收到来自海内外数百名优秀学者报名,欢迎感兴趣的海内外专家学者尽早申请!
专注于计算机图形学的全球学术顶会 SIGGRAPH,正在出现新的趋势。
机器之心 · 2024-08-09 14:33:00
今日获悉,由莫斯科国立大学举办的 MSU 世界视频编码器大赛结果揭晓。
机器之心 · 2024-08-09 14:27:00
但可能打不过公园里的老大爷?
机器之心 · 2024-08-09 14:22:00
RLHF 与 RL 到底能不能归属为一类,看来大家还是有不一样的看法。
机器之心 · 2024-08-09 14:17:00
GPT-5 大模型?不要太着急。
机器之心 · 2024-08-09 14:13:00
近日,Meta发布了备受瞩目的Llama-3.1系列模型,包括405B “超大杯”模型傲视群雄,成为首个比肩最强大模型的开源模型。Llama-3.1系列包括8B、70B、405B参数三个版本模型,上下文长度扩展至128k,支持八种语言,具有良好的代码生成能力、复杂推理能力以及工具使用能力。更长的上下文让模型能够处理更复杂和深入的对话场景,...
CSDN · 2024-08-09 11:54:00
随着Llama 3.1的发布,关于不同量化方法的优缺点的讨论变得相当热烈。模型量化质量的评估一向是个难题,本文将分享Fireworks如何处理量化以及评估其中的权衡。以下是本文内容摘要:量化没有通用的标准——量化技术多种多样,模型中可以量化的部分也各不相同。
标准的投机采样算法是无损的,本文将通过数学分析和实验来证明这一点。
机器之心 · 2024-08-09 10:33:00