最新文章

终于有人调查了小模型过拟合：三分之二都有数据污染，微软Phi-3、Mixtral 8x22B被点名

当前最火的大模型，竟然三分之二都存在过拟合问题？

机器之心 · 2024-05-04 11:05:00

小模型性能饱和、表现不佳，根源是因为Softmax?

语言建模领域的最新进展在于在极大规模的网络文本语料库上预训练高参数化的神经网络。

机器之心 · 2024-05-04 10:59:00

CVPR 2024 Highlight | 基于单曝光压缩成像，不依赖生成模型也能从单张图像中重建三维场景

传统的 3D 重建算法需要不同视角拍摄的多张图片作为输入从而重建出 3D 场景。

机器之心 · 2024-05-04 10:53:00

跨越300多年的接力：受陶哲轩启发，数学家决定用AI形式化费马大定理的证明

在陶哲轩的启发下，越来越多的数学家开始尝试利用人工智能进行数学探索。

机器之心 · 2024-05-03 10:41:00

Transformer要变Kansformer？用了几十年的MLP迎来挑战者KAN

MLP（多层感知器）用了几十年了，真的没有别的选择了吗？

机器之心 · 2024-05-03 10:38:00

邮件曝光，微软为追谷歌脚步才投资了OpenAI，纳德拉回应：才不是

微软与 OpenAI 剪不断理还乱。

机器之心 · 2024-05-03 10:32:00

Meta 联合纽约大学和华盛顿大学提出MetaCLIP，带你揭开CLIP的高质量数据之谜。

自2021年诞生，CLIP已在计算机视觉识别系统和生成模型上得到了广泛的应用和巨大的成功。

机器之心 · 2024-05-03 10:30:00

《AI算力的阿喀琉斯之踵：内存墙》一文曾指出，过去20年，硬件算力峰值增长了90000倍，但是DRAM/硬件互连带宽只增长了30倍。在这个趋势下，特别是芯片内或者芯片间的数据传输会迅速成为训练大规模AI模型的瓶颈。上个月，在英伟达GTC 2024大会上发布了“更大的GPU”：新一代Blackwell 架构的B200和GB200 GPU ，其中B200采用台积电4nm工艺，晶体管数量高达2080亿，...

CSDN · 2024-05-02 08:33:00

参数量不到10亿的OctopusV3，如何媲美GPT-4V和GPT-4？

近期，将视觉数据纳入大型语言模型 (如 GPT-4V) 的研究取得了重要进展，但如何有效地将图像信息转化为 AI 系统的可执行动作仍面临挑战。

机器之心 · 2024-05-01 16:26:00