实时热门站点和热榜数据聚合
近期研究提出了极低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。这种方法旨在显著降低内存占用并加速推理,从而为 LLM 在下游应用中的高效部署提供一条可行途径。近期研究提出了极低比特(extreme low-bit)LLM,例如使用 1.58 比特(即三值 {-1, 0, 1})表示的 BitNet。这种方法旨在显著降低内存占用并加速推理,从而为 LLM 在下游应用中的高效部署提供一条可行途径。
香港大学、VAST、哈尔滨工业大学及浙江大学的研究者们联手,推出了一个名为 OmniPart 的全新框架,巧妙地解决了这一难题。该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。香港大学、VAST、哈尔滨工业大学及浙江大学的研究者们联手,推出了一个名为 OmniPart 的全新框架,巧妙地解决了这一难题。该研究已被计算机图形学顶会 SIGGRAPH Asia 2025 接收。
现在但凡你的应用跟“位置”沾边,Gemini都能立刻调用谷歌地图那套庞大的地理数据库——2.5亿个地点全给它接通了。现在但凡你的应用跟“位置”沾边,Gemini都能立刻调用谷歌地图那套庞大的地理数据库——2.5亿个地点全给它接通了。
如果向10年前的人展示今天的ChatGPT,他们可能会称之为AGI。如果向10年前的人展示今天的ChatGPT,他们可能会称之为AGI。
随着智能体全面融入企业运营,身份安全正迎来前所未有的变革。Saviynt与Silverfort等厂商正将身份安全从传统的人类账户管理,扩展到涵盖AI与非人类身份的统一防护体系。随着智能体全面融入企业运营,身份安全正迎来前所未有的变革。Saviynt与Silverfort等厂商正将身份安全从传统的人类账户管理,扩展到涵盖AI与非人类身份的统一防护体系。
在数字化和AI快速重塑商业格局的今天,CIO的角色正从“技术维稳者”演变为“生态系统协调者”,他们通过整合云服务商、数据专家与系统集成商,推动跨界协作,直接创造收入、降低客户流失并加速创新。在数字化和AI快速重塑商业格局的今天,CIO的角色正从“技术维稳者”演变为“生态系统协调者”,他们通过整合云服务商、数据专家与系统集成商,推动跨界协作,直接创造收入、降低客户流失并加速创新。
可灵UniVideo突破性地将统一多模态模型扩展至视频领域,通过双流架构实现理解、生成与编辑的无缝融合。本文介绍其技术原理与应用前景,揭示视频AI从"处理"到"理解"的范式转变,为内容创作者和AI研究者提供全新视角。当AI真正"理解"视频,创作平权时代已然来临。可灵UniVideo突破性地将统一多模态模型扩展至视频领域,通过双流架构实现理解、生成与编辑的无缝融合。本文介绍其技术原理与应用前景,揭示视频AI从"处理"到"理解"的范式转变,为内容创作者和AI研究者提供全新视角。当AI真正"理解"视频,创作平权时代已然来临。
今天,我想和大家聊聊一个看似简单、却在实际项目中经常被忽略的话题:统计接口耗时。有些小伙伴在工作中,可能经常遇到这样的场景:线上接口突然变慢,用户抱怨连连,你却一头雾水,不知道问题出在哪里。或者,在性能优化时,你费尽心思优化了代码,却无法量化优化效果。今天,我想和大家聊聊一个看似简单、却在实际项目中经常被忽略的话题:统计接口耗时。有些小伙伴在工作中,可能经常遇到这样的场景:线上接口突然变慢,用户抱怨连连,你却一头雾水,不知道问题出在哪里。或者,在性能优化时,你费尽心思优化了代码,却无法量化优化效果。
生成式AI的崛起正深刻重塑IT劳动力市场,最新报告显示,全球技术岗位较2020年下降36%,初级工程师受冲击最严重。AI自动化削减了编码与测试等重复性任务,企业转而寻求具备AI提示词工程、系统整合和问题解决能力的人才。生成式AI的崛起正深刻重塑IT劳动力市场,最新报告显示,全球技术岗位较2020年下降36%,初级工程师受冲击最严重。AI自动化削减了编码与测试等重复性任务,企业转而寻求具备AI提示词工程、系统整合和问题解决能力的人才。
谷歌的Gemini 3.0疑似上线LMArena!众多实测提前曝光,但效果嘛,很难评。谷歌的Gemini 3.0疑似上线LMArena!众多实测提前曝光,但效果嘛,很难评。
LongLive框架实现了交互式长视频生成的重大突破,其20.7 FPS的实时推理速度比SkyReels-V2快41倍,同时保持高质量输出。本文将探索其KV-recache、流式长微调等核心技术,揭示训练-推理一致性如何解决长视频质量衰减难题。LongLive框架实现了交互式长视频生成的重大突破,其20.7 FPS的实时推理速度比SkyReels-V2快41倍,同时保持高质量输出。本文将探索其KV-recache、流式长微调等核心技术,揭示训练-推理一致性如何解决长视频质量衰减难题。
在数字化转型的大背景下,云计算已成为企业实现业务创新与资源优化的核心技术支撑。特别是私有云,凭借其高度定制化和安全可控的特性,备受金融、政务、能源等对数据安全与合规要求极为严苛的行业青睐。在数字化转型的大背景下,云计算已成为企业实现业务创新与资源优化的核心技术支撑。特别是私有云,凭借其高度定制化和安全可控的特性,备受金融、政务、能源等对数据安全与合规要求极为严苛的行业青睐。
随着大型语言模型(LLM)朝着通用能力迈进,并以通用人工智能(AGI)为最终目标,测试其生成问题的能力也正变得越来越重要。随着大型语言模型(LLM)朝着通用能力迈进,并以通用人工智能(AGI)为最终目标,测试其生成问题的能力也正变得越来越重要。
微软最新推出的蒸馏框架BitNet Distillation(简称BitDistill),实现了几乎无性能损失的模型量化。微软最新推出的蒸馏框架BitNet Distillation(简称BitDistill),实现了几乎无性能损失的模型量化。
厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。该研究已被机器学习顶级会议 NeurIPS 2025 接收,为长视频理解任务提供了全新的解决思路。厦门大学、罗切斯特大学与南京大学联合提出了一种轻量高效、无需微调的创新框架 ——Video-RAG。该研究已被机器学习顶级会议 NeurIPS 2025 接收,为长视频理解任务提供了全新的解决思路。
AI科学家时代正在到来,哈佛MIT最新推出的ToolUniverse,通过一个统一平台,让AI用自然语言操作600+科学工具,推动科研自动化的全面升级,迎接科学发现新范式。AI科学家时代正在到来,哈佛MIT最新推出的ToolUniverse,通过一个统一平台,让AI用自然语言操作600+科学工具,推动科研自动化的全面升级,迎接科学发现新范式。
序言:一个开发者的鸿蒙情缘作为一名普通的开发者,我与鸿蒙的相遇并非偶然。从最初的好奇观望,到深入学习开发,再到成功上架应用,这段旅...序言:一个开发者的鸿蒙情缘作为一名普通的开发者,我与鸿蒙的相遇并非偶然。从最初的好奇观望,到深入学习开发,再到成功上架应用,这段旅...
代理型人工智能与传统自动化的区别在于其能够处理复杂性和不确定性。这些系统并非遵循僵化的规则,而是利用先进的推理能力,根据情况变化调整策略。这种从人工智能作为顾问到人工智能作为自主行动者的根本性转变,正在重新定义供应链在当今动荡的商业环境中如何应对挑战和机遇。代理型人工智能与传统自动化的区别在于其能够处理复杂性和不确定性。这些系统并非遵循僵化的规则,而是利用先进的推理能力,根据情况变化调整策略。这种从人工智能作为顾问到人工智能作为自主行动者的根本性转变,正在重新定义供应链在当今动荡的商业环境中如何应对挑战和机遇。
罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》,为破解这一难题提供了全新思路。他们用两个简单的特殊Token,就实现了记忆与推理的“解耦分家”,不仅让模型思考过程变得透明,更在多项权威测试中超越GPT-4o等强基线。罗格斯大学、俄亥俄州立大学等团队发表于2025 ACL的研究《Disentangling Memory and Reasoning Ability in Large Language Models》,为破解这一难题提供了全新思路。他们用两个简单的特殊Token,就实现了记忆与推理的“解耦分家”,不仅让模型思考过程变得透明,更在多项权威测试中超越GPT-4o等强基线。
说实话,刚开始我也有点半信半疑。毕竟传统OCR工具给人的印象就是"能用但不好用"——扫描个PDF经常把表格搞得乱七八糟,数学公式识别成天书,更别提那些复杂排版的古籍文档了。说实话,刚开始我也有点半信半疑。毕竟传统OCR工具给人的印象就是"能用但不好用"——扫描个PDF经常把表格搞得乱七八糟,数学公式识别成天书,更别提那些复杂排版的古籍文档了。
在最新一次线上对谈中,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。在最新一次线上对谈中,Dexmal联合创始人唐文斌与Hugging Face联合创始人Thomas Wolf指出了当前机器人研究的最大痛点。
近段时间,「死亡互联网理论」刷屏硅谷,OpenAI创始人兼CEO Sam Altman、Reddit联合创始人Ohanian等纷纷对其发表评论。失去真实性的网络等同于死亡。AI生成内容正席卷社交平台,从图片、视频到自动化评论。互联网的未来不在真假之争,而在重拾「真实」的信任与温度。近段时间,「死亡互联网理论」刷屏硅谷,OpenAI创始人兼CEO Sam Altman、Reddit联合创始人Ohanian等纷纷对其发表评论。失去真实性的网络等同于死亡。AI生成内容正席卷社交平台,从图片、视频到自动化评论。互联网的未来不在真假之争,而在重拾「真实」的信任与温度。
在AI竞赛中,Meta CEO扎克伯格视时间为唯一敌人,以数百亿美元和九位数年薪抢夺顶尖人才,内部革命加速工程部署,从小时级压至分钟级,只为撕开与OpenAI、谷歌的差距——这一切,是否预示着超级智能的加速到来?在AI竞赛中,Meta CEO扎克伯格视时间为唯一敌人,以数百亿美元和九位数年薪抢夺顶尖人才,内部革命加速工程部署,从小时级压至分钟级,只为撕开与OpenAI、谷歌的差距——这一切,是否预示着超级智能的加速到来?
人类能通过视觉线索轻松完成购物找零等日常推理,但现有AI模型在类似任务中表现欠佳。浙江大学的研究团队将小学数学题转化为多图视觉基准,评估模型能否「看懂」数学,揭示其跨场景推理短板,为下一代通用智能模型发展提供方向。人类能通过视觉线索轻松完成购物找零等日常推理,但现有AI模型在类似任务中表现欠佳。浙江大学的研究团队将小学数学题转化为多图视觉基准,评估模型能否「看懂」数学,揭示其跨场景推理短板,为下一代通用智能模型发展提供方向。
OpenAI的封闭模型在IOI 2025竞赛夺金的同时,英伟达团队交出了一份同样令人振奋的答卷——他们利用完全开源的大模型和全新的GenCluster策略,在IOI 2025竞赛中跑出了媲美金牌选手的成绩!开源模型首次达到了IOI金牌水准。这究竟是怎样实现的?OpenAI的封闭模型在IOI 2025竞赛夺金的同时,英伟达团队交出了一份同样令人振奋的答卷——他们利用完全开源的大模型和全新的GenCluster策略,在IOI 2025竞赛中跑出了媲美金牌选手的成绩!开源模型首次达到了IOI金牌水准。这究竟是怎样实现的?
Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。Meta开源DepthLM,首证视觉语言模型无需改架构即可媲美纯视觉模型的3D理解能力。通过视觉提示、稀疏标注等创新策略,DepthLM精准完成像素级深度估计等任务,解锁VLM多任务处理潜力,为自动驾驶、机器人等领域带来巨大前景。
马斯克忙着把人类送上火星时,也正在地球上进行着一项更私密的实验——「设计」自己的孩子。一场围绕「超级婴儿」的豪赌正在硅谷上演,这究竟是人类进化的未来,还是一场收割精英的精心骗局?马斯克忙着把人类送上火星时,也正在地球上进行着一项更私密的实验——「设计」自己的孩子。一场围绕「超级婴儿」的豪赌正在硅谷上演,这究竟是人类进化的未来,还是一场收割精英的精心骗局?
香港大学团队开创性地提出了 GPC(General Policy Composition,通用策略组合)框架,为这一挑战提供了全新的免训练解决方案。香港大学团队开创性地提出了 GPC(General Policy Composition,通用策略组合)框架,为这一挑战提供了全新的免训练解决方案。
来自 RAG 基础设施巨头 LlamaIndex 的这篇文章提供了一种演进主义的视角。它不认为 RAG 正在被替代,而是正在经历一个演进阶段,其中 AI 智能体成为一种全新的、更强大的 RAG 架构的核心。来自 RAG 基础设施巨头 LlamaIndex 的这篇文章提供了一种演进主义的视角。它不认为 RAG 正在被替代,而是正在经历一个演进阶段,其中 AI 智能体成为一种全新的、更强大的 RAG 架构的核心。
这篇论文是首个关于 LLM 强化学习扩展的开源、大规模系统性研究,其内容非常翔实,结论也足够有参考价值,因此受到了 Ai2 科学家 Nathan Lambert 等人的强烈推荐。这篇论文是首个关于 LLM 强化学习扩展的开源、大规模系统性研究,其内容非常翔实,结论也足够有参考价值,因此受到了 Ai2 科学家 Nathan Lambert 等人的强烈推荐。
残差学习这把改变深度学习格局的 “钥匙”,其实早在30年前就已经诞生——Sepp Hochreiter在1991年就在使用循环残差连接解决梯度消失问题。残差学习这把改变深度学习格局的 “钥匙”,其实早在30年前就已经诞生——Sepp Hochreiter在1991年就在使用循环残差连接解决梯度消失问题。
OpenAI 研究人员在社交媒体平台 X 上宣称取得了一项重大数学突破,但很快在学界批评声中撤回了这一说法。批评者包括 DeepMind 首席执行官德米斯・哈萨比斯(Demis Hassabis),他指出该团队的沟通方式“过于草率”。OpenAI 研究人员在社交媒体平台 X 上宣称取得了一项重大数学突破,但很快在学界批评声中撤回了这一说法。批评者包括 DeepMind 首席执行官德米斯・哈萨比斯(Demis Hassabis),他指出该团队的沟通方式“过于草率”。
来自上海交通大学和上海人工智能实验室的研究团队,带来了新的解决方案——MM-HELIX。来自上海交通大学和上海人工智能实验室的研究团队,带来了新的解决方案——MM-HELIX。
上海人工智能实验室联合浙江大学等机构的研究者,提出了IWR-Bench——一个旨在更真实地评估LVLM交互式网页重建能力的评测基准。上海人工智能实验室联合浙江大学等机构的研究者,提出了IWR-Bench——一个旨在更真实地评估LVLM交互式网页重建能力的评测基准。
马斯克高调邀请卡帕西,与Grok 5来一场编程对决——就像当年的“卡斯帕罗夫大战深蓝”。马斯克高调邀请卡帕西,与Grok 5来一场编程对决——就像当年的“卡斯帕罗夫大战深蓝”。
27FPS实时视频生成,35秒生成1分钟视频,英伟达联合MIT港大等团队提出的SANA-Video架构,得益于核心架构创新,视频模型具备了惊人的生成速度。27FPS实时视频生成,35秒生成1分钟视频,英伟达联合MIT港大等团队提出的SANA-Video架构,得益于核心架构创新,视频模型具备了惊人的生成速度。
麻省理工学院最新研究预示着人类距离能够自主学习的AI又迈出了关键一步。该研究推出了一种全新的自适应大模型框架「SEAL」,让模型从「被动学习者」变为「主动进化者」。麻省理工学院最新研究预示着人类距离能够自主学习的AI又迈出了关键一步。该研究推出了一种全新的自适应大模型框架「SEAL」,让模型从「被动学习者」变为「主动进化者」。
AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。AI拍长视频不再是难事!LongLive通过实时交互生成流畅画面,解决了传统方法的卡顿、不连贯等痛点,让普通人都能轻松拍大片。无论是15秒短片还是240秒长片,画面连贯、节奏流畅,让创作变得像打字一样简单。
数学家们证明:该算法完成任务所需的时间可能会随着约束条件的数量呈指数级增长。数学家们证明:该算法完成任务所需的时间可能会随着约束条件的数量呈指数级增长。
该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。该研究首次提出了含可移动物体的 3D 场景中,基于文本的人 - 物交互生成任务,并构建了大规模数据集与创新方法框架,在多个评测指标上均取得了领先效果。
在扩散模型驱动的视觉生成领域,从 Sora、Wan、Hunyuan-Video 到 Veo,视频模型正不断逼近真实世界。然而几乎所有主流模型都有一个共同限制:只能生成数秒的短片段。在扩散模型驱动的视觉生成领域,从 Sora、Wan、Hunyuan-Video 到 Veo,视频模型正不断逼近真实世界。然而几乎所有主流模型都有一个共同限制:只能生成数秒的短片段。
SAC Flow 的关键词只有三个:序列化 、稳定训练、数据高效。把流策略视作序列模型,进而能够用 GRU / Transformer 的成熟经验稳定梯度回传。SAC Flow 的关键词只有三个:序列化 、稳定训练、数据高效。把流策略视作序列模型,进而能够用 GRU / Transformer 的成熟经验稳定梯度回传。
两台DGX Spark串联一台苹果Mac Studio,就能让大模型推理速度提升至2.77倍。两台DGX Spark串联一台苹果Mac Studio,就能让大模型推理速度提升至2.77倍。
INSAIT、复旦大学等单位联合提出ObjectRelator框架,让AI精准匹配不同视角下的同一物体,实现跨视角的统一表征与理解。INSAIT、复旦大学等单位联合提出ObjectRelator框架,让AI精准匹配不同视角下的同一物体,实现跨视角的统一表征与理解。
来自华中科技大学、北京中关村学院和华东师范大学的研究团队将目光转向从更广泛且更基础的空间现象中学习,从而突破单一数据集的局限,扩展模型的能力范围。来自华中科技大学、北京中关村学院和华东师范大学的研究团队将目光转向从更广泛且更基础的空间现象中学习,从而突破单一数据集的局限,扩展模型的能力范围。
作为特斯拉前AI总监、OpenAI创始成员,卡帕西在近两个半小时的访谈中,深入回答了一系列引人深思的问题。作为特斯拉前AI总监、OpenAI创始成员,卡帕西在近两个半小时的访谈中,深入回答了一系列引人深思的问题。
来自阿德莱德大学、美团和上海交通大学的研究团队,首次对扩散模型中的一类特殊幻觉——“计数幻觉” (counting hallucination)进行了系统性的研究 。来自阿德莱德大学、美团和上海交通大学的研究团队,首次对扩散模型中的一类特殊幻觉——“计数幻觉” (counting hallucination)进行了系统性的研究 。
来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 --- 运行安全(Operational Safety),旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。来自南洋理工大学等机构的研究者们首先提出了一个开创性的概念 --- 运行安全(Operational Safety),旨在彻底重塑我们对 AI 在特定场景下安全边界的认知。
清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布通用跨本体具身基座模型X-VLA。清华大学智能产业研究院(AIR)与上海人工智能实验室联合发布通用跨本体具身基座模型X-VLA。
[TOC](文章目录)前言元服务终于开发完成了,现在准备提交了,距离我们写挑战开始的时间,刚好是第八天,由于中间耽误了近1天时间,所以我们...[TOC](文章目录)前言元服务终于开发完成了,现在准备提交了,距离我们写挑战开始的时间,刚好是第八天,由于中间耽误了近1天时间,所以我们...