social.anoxinon.de ist einer von vielen unabhängigen Mastodon-Servern, mit dem du dich im Fediverse beteiligen kannst.
Die offizielle Mastodon Instanz des Vereins Anoxinon e.V.

Serverstatistik:

1,1 Tsd.
aktive Profile

#anthropic

9 Beiträge9 Beteiligte0 Beiträge heute

🤖👨‍💻 Нове дослідження Microsoft #Research виявило, що навіть передові ШІ-моделі o1 від #OpenAI та Claude 3.7 Sonnet від #Anthropic здатні виправляти помилки в коді не більше ніж у половині випадків. Тестування проводилося на базі бенчмарку SWE-bench.

В ході експерименту ШІ-агенти намагалися вирішити 300 завдань, які стосувались налагодження коду. Лідером стала модель Claude 3.7 Sonnet, яка виконала завдання з успішністю на 48,4%, друге місце посіла OpenAI o1 (30,2%), третє – o3-mini (22,1%).

#KI, #Anthropic, #Preis
Teurer Spaß oder lohnendes Geschäft? Premium-Chatbot für 200 Dollar/Monat. linux-magazin.de/news/premium-

Linux-Magazin · Premium-Chatbot für 200 Dollar/MonatAnthropic hat ein neues Highend-Premiummodell seines Chatbots Claude vorgestellt, das im Wettlauf um die Monetarisierung mächtiger KI einen neuen Meilenstein markiert. Der neue „Max“ getaufte Bezahlplan bietet zwei Optionen: 100 Dollar pro Monat für das Fünffache der Nutzung des bestehenden 20-Dollar-Pro-Tarifs von Anthropic oder 200 Dollar pro Monat für das Zwanzigfache der Nutzung. Das Modell ähnelt dem monatlichen ChatGPT-Pro-Abonnement von OpenAI im Wert von 200 US-Dollar, bietet aber eine preiswertere mittlere Stufe für diejenigen, die mehr als den Basisplan, aber nicht das volle Premium-Kontingent benötigen. Die Optionen sollen vor allem Power-Anwender ansprechen, die in ihrer täglichen Arbeit auf Claude angewiesen sind. Der Start erfolgt zu einem Zeitpunkt, an dem KI-Unternehmen nach nachhaltigen Geschäftsmodellen suchen, um die enormen Kosten für die Entwicklung und den Betrieb immer leistungsfähigerer großer Sprachmodelle auszugleichen. Die neueste Generation von KI-Systemen, darunter auch das kürzlich von Anthropic veröffentlichte Claude 3.7 Sonnet, benötigt sowohl für das Training als auch für den täglichen Betrieb enorme Mengen an Rechenressourcen. KI-Unternehmen versuchen daraufhin differenzierter auf ihre Nutzergruppen einzugehen: Gelegenheitsanwender haben kostenlosen Zugriff, professionelle Anwender mit geringem Bedarf können für 20 Dollar/Monat einen Pro-Zugang kaufen und denen, die das Sprachmodell am intensivsten nutzen, bietet Anthropic nun die Zugänge für 100 und 200 Dollar/Monat. Gerade diese letztgenannten Nutzergruppen wachsen in dem Maß, in dem die KI in den täglichen Workflow integriert wird. Genau für diese Anwender, deren tägliche Arbeit von einem Chatbot abhängt, kann sich dann auch der teure Zugang rechnen.

Kürzlich erschien in #t3n ein Artikel über die seltsamen "Denk"-Prozesse der #LLM's und wie wenig man davon weiß:

KI-Blackbox geknackt: Anthropic enthüllt, wie Claude wirklich denkt – und es ist bizarr
[t3n.de/news/ki-blackbox-anthro]

mit 2 Kernaussagen:
1
"Kaum eine Technik, die so breit eingesetzt wird, wurde jemals so wenig verstanden – wenn nicht sogar noch nie eine."

2
"LLMs sind seltsam und man sollte ihnen nicht trauen."

In #Midjourneyv7 sieht das so aus... 👀🤔😉

#anthropic
#genAI

Fortgeführter Thread

"Why do language models sometimes hallucinate—that is, make up information? At a basic level, language model training incentivizes hallucination: models are always supposed to give a guess for the next word. Viewed this way, the major challenge is how to get models to not hallucinate. Models like Claude have relatively successful (though imperfect) anti-hallucination training; they will often refuse to answer a question if they don’t know the answer, rather than speculate. We wanted to understand how this works.

It turns out that, in Claude, refusal to answer is the default behavior: we find a circuit that is "on" by default and that causes the model to state that it has insufficient information to answer any given question. However, when the model is asked about something it knows well—say, the basketball player Michael Jordan—a competing feature representing "known entities" activates and inhibits this default circuit (see also this recent paper for related findings). This allows Claude to answer the question when it knows the answer. In contrast, when asked about an unknown entity ("Michael Batkin"), it declines to answer.

Sometimes, this sort of “misfire” of the “known answer” circuit happens naturally, without us intervening, resulting in a hallucination. In our paper, we show that such misfires can occur when Claude recognizes a name but doesn't know anything else about that person. In cases like this, the “known entity” feature might still activate, and then suppress the default "don't know" feature—in this case incorrectly. Once the model has decided that it needs to answer the question, it proceeds to confabulate: to generate a plausible—but unfortunately untrue—response."

anthropic.com/research/tracing

#AI#GenerativeAI#LLMs

🚨BREAKING: Super-smart AI can't catch 'em all!🚨 Despite being able to simulate the entirety of human knowledge, Anthropic's #Claude is still stumped by a children's game. Maybe it should try turning its digital cap backwards. 🎮🤖
arstechnica.com/ai/2025/03/why #AIfail #Anthropic #GamingNews #TechHumor #HackerNews #ngated

Ars Technica · Why Anthropic’s Claude still hasn’t beaten PokémonVon Kyle Orland