值得一提的是,DeepSeek R1作为榜单前十唯一的开源模型排名第三,超越early-grok-3、o3-mini-high、Claude 3.5 Haiku等。
看今天的样子,预训练的丧钟好像真的敲响了。读了AI大神Karpathy的实测感想,更是发现他对AI瓶颈有句微妙而委婉的话是“仿佛回到了两年前”,一切激进的提升,似乎已经终止了。 “今天是OpenAI发布GPT4.5的日子。我已经期待这个版本大约两年了 ...
提示词:创建一个游戏,在这个游戏中,一个弹跳的伊隆头部图片会在整个屏幕上弹来弹去。每次他的头部接触到窗口的内边缘时,他分裂成两个,然后也开始四处漂浮。这些分裂出的头部在碰到墙壁时也应该加倍。图片之间可以碰撞,但不能重叠或重复。请输出一个单一的提示,包 ...
尽管预训练损失变化微弱,下游任务却暴露出隐患。实验显示,在高斯噪音上训练的模型,尽管其相比随机噪音对应模型的NTP loss更低,但在文本分类下游任务中的准确率却下降高达1.5%。这种“损失-性能解耦”现象表明,预训练指标NTP ...
在最新发表于《自然·机器智能》的研究中,中国学者胡宇航带领的团队成功让机器人获得了「自我学习」能力:仅凭普通摄像头,就能像孩子观察自己的手脚般理解身体构造,甚至在「受伤」时自主调整和恢复。
Level 1包含100个单个基本操作,如卷积、矩阵乘法等AI基础构建块。虽然PyTorch调用了经过优化的闭源内核,让LLM超越基线具有挑战性,但如果能生成开源内核,将有重要价值。
OpenAI 正式发布了其最大、最强的聊天模型 GPT‑4.5 研究预览版本。 奥特曼发推称,GPT‑4.5 让他第一次感觉像在与一个有思想的人在交谈,可以从模型那里得到真正好的建议。
今天他们开源了一个名为 3FS(Fire-Flyer File System)的系统。这是一种并行文件系统,它利用现代固态硬盘(SSD)和远程直接内存访问(RDMA)网络的全部带宽,能够加速和推动 DeepSeek 平台上所有数据访问操作。
由世界经济论坛(WEF)与埃森哲(Accenture)合作撰写的报告《AI in Action: Beyond Experimentation to Transform Industry 2025》,探讨了AI在2025年的机遇、采用现状及其未来潜力 ...
Phi-4-multimodal基于一种全新的架构,显著提升了效率和可扩展性。它拥有更大的词汇量以改进处理能力,支持多语言功能,并将语言推理与多模态输入相结合。所有这些都集成在一个强大、紧凑且高效的模型中,非常适合在设备端和边缘计算平台上部署。
简单说,系统不再独立处理来自每个摄像头的图像特征,而是首先在多尺度立体网络中合并两个摄像头的特征,然后再进行标记化(Tokenize)处理。 Figure训练了一个 视觉自体感觉模型(visual proprioception model) ...
英伟达公布的最新财报,直接破纪录了!全年营收1305亿美元,创下历史新高,Blackwell更是需求惊人。老黄直接开口感谢DeepSeek:它带来的全新Scaling Law,让现在执行推理的计算量是过去的100倍,简直成了英伟达的印钞机。
Some results have been hidden because they may be inaccessible to you
Show inaccessible results