Anthropic představil model Mythos, který podle firmy prolomil dosud neznámé softwarové bezpečnostní díry a zvládl kompletní simulaci velkého kybernetického útoku. Zároveň ho firma označila za tak nebezpečný, že ho veřejnosti raději vůbec neuvolní.
👇👇👇👇👇👇
Staňte se členy Voxpot Klubu! Přispějete tak na provoz nejen tohoto podcastu, získáte přístup na redakční Discord, k plným článkům a dalším klubovým bonusům. Vstup do Klubu najdete na https://www.voxpot.cz/klub/
👇👇👇👇👇👇
V bezpečnostních testech dokázal nový model Mythos údajně samostatně plánovat a provádět komplexní útoky, nacházet dosud nezdokumentované chyby v infrastruktuře a obcházet vlastní sandbox.
V novém dílu podcastu Prompt řešíme, jak se v Mythosu projevují dlouho diskutované problémy jako reward hacking a „řetěz myšlenek“, a proč se Anthropic pokouší měřit „emoce“ modelů.
Ptáme se, co z toho je reálný průlom ve výzkumu bezpečnosti, co naopak připomíná spíš PR, a proč část výzkumné scény tvrdí, že jsme s chápáním vnitřního fungování velkých jazykových modelů pořád na začátku.
Shownotes:
banger
👇👇👇👇👇👇
Staňte se členy Voxpot Klubu! Přispějete tak na provoz nejen tohoto podcastu, získáte přístup na redakční Discord, k plným článkům a dalším klubovým bonusům. Vstup do Klubu najdete na https://www.voxpot.cz/klub/
👇👇👇👇👇👇
V bezpečnostních testech dokázal nový model Mythos údajně samostatně plánovat a provádět komplexní útoky, nacházet dosud nezdokumentované chyby v infrastruktuře a obcházet vlastní sandbox.
V novém dílu podcastu Prompt řešíme, jak se v Mythosu projevují dlouho diskutované problémy jako reward hacking a „řetěz myšlenek“, a proč se Anthropic pokouší měřit „emoce“ modelů.
Ptáme se, co z toho je reálný průlom ve výzkumu bezpečnosti, co naopak připomíná spíš PR, a proč část výzkumné scény tvrdí, že jsme s chápáním vnitřního fungování velkých jazykových modelů pořád na začátku.
Shownotes:
banger
Mythos System Card (244 stran)
Attribution Graphs / Biology of LLM (mar 2025)
Neel Nanda — mechanistic interpretability (EA Forum)