常州万能胶生产厂家 Claude新模型4.6来了!多饭碗没了:华尔街财务、编译器、安全白帽、PPT…通通失守

睁眼常州万能胶生产厂家,Anthropic上新模型,让Claude Opus 4.6来给您拜!年!了!
消息出,金融数据服务商FactSet惨盘中暴跌10,S&P Global、穆迪、纳斯达克公司纷纷下跌,各大指数全线跳水。
这已经是Anthropic你小子本周二次搅动市场了。
几天前,它旗下款自动化法律工作的插件悄悄上线,直接引爆了万亿美元别的软件股暴跌。
投资者的恐慌聚焦在个问题:谁能保证几年内不被AI颠覆?不能就抛售。
想不到今天的Anthropic狠。
今天以前,大对Claude的印象,就是编程能力断档的强。
Claude Opus 4.6冷笑声,梆梆拳破这个印象:俺在多的域都很强!
至少就官说法而言,财务分析、研究,以及Office三件套,Claude Opus 4.6都可以玩儿得很溜。
官网直接写到:
在GDPval-AA(项评估金融、法律和其他域经济价值知识工作任务的能指标)上,Opus 4.6比行业下佳模型OpenAI GPT-5.2出144个Elo哟~
(这意味着Claude Opus 4.6在大约70的情况下在这个评估中获得比GPT-5.2的分数,50的情况下意味着分数相当)
当然,编程这块它依旧风骚。
在Agent编程评估Terminal-Bench 2.0中取得了分,并在“人类后考试”中先所有其他前沿模型。
好消息是加量不加价,Opus 4.6的定价保持原有标准:每百万token输入/输出,价格是5美元/25美元。
(为了便阅读,以下简称新模型为Opus 4.6)
带着 1M 上下文和自适应思考回Opus 4.6直观的进步就是有了1M Token大上下文,这是Claude次在Opus别模型中引入这个长度的上下文窗口。
这大了Opus 4.6在处理长文本时会出现的“上下文衰减”情况。
在MRCR v2 8-needle 1M基准测试——大海捞针——中,Opus 4.6得分76,而Claude Sonnet 4.5只有18.5。
伴随而来的结果是搜索能力的提升。
在BrowseComp评测(评估在线检索难获取信息的能力)中,Opus 4.6排名行业,度多步骤代理式搜索表现佳,能定位分散在长文档中的关键信息。
Opus 4.6还引入了自适应思考(Adaptive Thinking)。
以前,使用Claude模型的开发者只能二选,扩展思考模式要么开,要么关。
现在,Claude可以自己判断什么时候需要度理。
(讲真,这步比ChatGPT慢了哈,下次请搞快点上这种好)
配套的effort参数提供四档选择——low、medium、high、max——,默认high,遇到模型过度思考的情况可以手动调低。
另个实用是上下文压缩(Context Compaction)。
当对话接近上下文窗口上限时自动摘要并替换旧内容常州万能胶生产厂家,让长对话和Agent任务轻松。
编码、知识工作、搜索、理等核心场景,爆了官博客显示,Opus 4.6出,几乎模型能与其争锋。
在编码、知识工作、搜索、理等核心场景,Opus 4.6有显著突破。
多项评测成绩越前代及行业竞品,be like:
看完有了个大概印象,我们再个个掰开说。
先是编程能力。
Opus 4.6在Terminal-Bench 2.0中拿到了分。
从成绩背后的实际能力来看,Opus 4.6能周密地进行任务规划,可在大型代码库中稳定运行,代码审查与调试精度提升。
而且能自主发现自身错误。
另点是Opus 4.6支持多语言编码,能处理跨语言软件工程问题。
它能像工程师样完成数百万行代码库迁移,且用时实实少半那种。
写到这里的时候,我不禁在想:
工程师们看到这个消息到底是兴得头发都不掉了,还是会掉快呢……(陷入沉思.jpg)
其次,Opus 4.6也在积入侵传统办公地。
这次它对Office三件套狠狠出手了。
能直接在Excel里摄入凌乱的非结构化数据,自行断理的表格结构,次操作中可处理多个复杂步骤;
能铭记你公司的PPT模板,包括字体和布局风格也记住,确保生成的PPT没啥AI味,让老板以为是你熬夜框框顿做的。
在Cowork环境下,Opus 4.6可以代表用户自主多任务运行,边跑财务分析,pvc管道管件胶边把研究成果整理成文档。
感觉,Anthropic有点想把Claude从聊天框里拉到多空间里的意思?
三,我们来说说它在理能力上的进步。
先上个总结:
Opus 4.6在跨域理上,强了。
在多学科复杂理测试 “人类后的考试” 中,Opus先所有前沿模型。
在法律域,Opus 4.6在40为满分的BigLaw Bench上,得分90.2。
在金融、法律等经济价值向任务评测GDPval-AA 中,Opus 4.6以144 Elo越“行业竞品”OpenAI GPT-5.2。
论是复杂的法律、金融业知识还是刁钻的学术研究,它的理理解度都达到了目前frontier models的顶峰。
难得的是,这种智力的飞跃并没有以牺牲安全为代价。
在Anthropic看重的自动化行为审计中,Opus 4.6的对齐水平,同时,欺骗、奉承等负面行为低。
Opus 4.6甚至解决了目前AI圈普遍头疼的“过度拒”问题——
在面对正常的、害的请求时,它比以往任何模型都少地表现出那种死板的拒。
目前,Opus 4,6已经在官网、API和所有主流云平台上线。
加量不加价,Opus 4.6的定价保持原有标准:每百万token输入/输出,价格是5美元/25美元。
不过在10M token上下文测试版本中,提示词过200k token的话会有额外付费。
划!重!点!
想要使用Opus 4.6的话,需要在调用API的时候明确制定模型标识 “Claude-opus-4-6”。
多饭碗没了16个Agent两周写完C编译器,运行毁灭战士
Opus 4.6带来的项核心能力升是Agent Teams,即多个Claude实例并行协作,需人类实时监督。
Anthropic安全团队的研究员Nicholas Carlini拿它做了个压力测试:让16个Agent从开始用Rust写个能编译Linux内核的C编译器。
两周时间,近2000次Claude Code会话,掉20亿输入Token和1.4亿输出Token,总成本不到2万美元。
终产出是个10万行的编译器,能在x86、ARM和RISC-V三个架构上编译Linux 6.9,还能跑Doom。
这套并行机制让每个Agent跑在立的Docker容器里,共享个git仓库。
为了止多个Agent撞车,都屁颠屁颠跑去解决同个问题,系统用了个简单的锁机制。
Agent通过往current_tasks/目录写文件来”认”任务,git的同步机制自动处理冲突。Agent之间没有门的通信协议,也没有编排Agent,每个Claude自己决定下步干什么。
Carlini在博客里写道:
“当Agent开始编译Linux内核时曾度卡住,因为这是个巨型单体任务,16个Agent全撞在同个bug上互相覆盖。”
解法是引入GCC作为”oracle”对照组,让每个Agent只编译内核的随机子集,通过二分法定位问题文件,这样并行能力才真正发挥出来。
500个日漏洞,开箱即挖
Opus 4.6在网络安全域的表现让Anthropic自己都有点意外。
在发布前的测试中,Anthropic的前沿红队把Opus 4.6扔进个沙箱环境,给它Python和常规漏洞分析工具(fuzzer、debugger那些),没有任何门指令或域知识,让它自己去找开源代码里的漏洞。
结果它挖出了过500个此前未知的危日漏洞。
每个都经过了Anthropic团队成员或外部安全研究员的验证的哦。
奥力斯 pvc管道管件胶批发 联系人:王经理 手机:15226765735(微信同号) 地址:河北省任丘市北辛庄乡南代河工业区
具体案例包括:
在GhostScript(个处理PDF和PostScript文件的常用工具)中发现了个可致崩溃的漏洞,而且是在传统fuzzing和人工分析都没找到问题之后,Claude自己翻了项目的git提交历史才挖出来的;
在OpenSC(处理智能卡数据的工具)和CGIF(处理GIF文件的工具)中发现了缓冲区溢出漏洞;在CGIF那个案例里,Claude甚至主动写了PoC(概念验证代码)来证明漏洞真实存在。
Anthropic前沿红队负责人Logan Graham说,如果这成为未来开源软件安全审计的主要式之,他点也不惊讶。
不过Anthropic也承认,这种能力可能被滥用。
为此,团队加了六套新的网络安全探测机制,未来可能会上线实时拦截系统来阻止恶意流量。
One More Thing官网显示,Anthropic现在已经是“用Claude构建Claude”。
自工程师每天都在用Claude Code编写代码,每个新模型先都在自己的工作环境中进行测试。
本文来源:量子位常州万能胶生产厂家
风险提示及责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符其特定状况。据此投资,责任自负。 相关词条:离心玻璃棉 塑料挤出机 钢绞线厂家 铝皮保温 pvc管道管件胶