Autor Thema: Snowie 5 on hold  (Gelesen 33046 mal)

FrankBerger

  • Hero Member
  • *****
  • Beiträge: 594
    • BGBlitz Homepage
Re: Snowie 5 on hold
« Antwort #25 am: 24. Februar 2008, 18:19:42 »
Hallo Frank, ich hatte das schon vor langer Zeit mal gefragt: wann spielt denn BGB auch endlich mal auf fibs? Das kann doch so schwer nicht sein, denn das interface hast Du doch selber in Deinem Wohmzimmer liegen  ;D , oder?
Naja, den connect und den parser hinzukriegen ist eine lösbare Aufgabe, das in die Benutzeroberfläche zu integrieren würde vermutlich aus Aufwandgründen flach fallen. Aber dann kommt ja noch der AUfwand hinzu was gegen dropper zu machen, ne Liste zu führen welche Matches du offen ahst etc. etc.  Es kann sein, das es gut für das Marketing wäre aber wir reden schon über ein paar Wochen Aufwand. Ich bekomme recht regelmäßig die Anforderung ne Matchanlyse zu machen, oder benutzerstatistiken, mich selbst juckt eine neue KI  S4/Gnu  usw. Die waren mir immer wichtiger.
Ich werde mich aber in absehbarer Zeit bei JavaFIBS engagieren, vielleicht fällt da ja sowas ab.

Was für ein fibs-rating dabei wohl rauskäme...
Reine Spekulation. Wenn ich den Analysen von GnuBG trauen darf (mit allen Einschränkungen die man dazu sagen könnte) zwischen 2030 und 2040.


Andreas

  • Hero Member
  • *****
  • Beiträge: 1.262
Re: Snowie 5 on hold
« Antwort #26 am: 24. Februar 2008, 18:21:19 »
Ich stelle die Frage nach der Signifikanz des Spielstärkeunterschieds zwischen BGBlitz und GnuBG. Hierzu verwende ich einen Chi-Quadrat-Vierfelder-Test.

             Win                     Loss
BGBlitz     1519                   1481
GnuBG     1623                   1377

Pearson's Chi-squared test with Yates' continuity correction

X-squared = 7.0885, df = 1, p-value = 0.007758

Daraus schließe ich, dass die Nullhypothese (Die Spielstärke von BGBlitz und GnuBG unterscheiden sich nicht signifikant) mit einer Wahrscheinlichkeit von 99,2 % abzulehnen ist. Somit ist es statistisch signifikant, dass GnuBG stärker spielt als BGBlitz.

Ist für einen derartigen Test nicht Voraussetzung, dass die 4 Beobachtungen voneinander unabhängig sind?

Die "Loss-Zahlen" sind jedoch nicht unabhängig von den "Win-Zahlen", sondern einfach 3000-n(win).

Die "Loss-Zahlen" enthalten somit keine weiter Information, als die beiden "Win-Zahlen".

Damit sehe ich keine Basis für einen "4 Felder Test" und halte den daraus gewonnen "p-Wert" für irrelevant hinsichtlich des Entscheids, ob das bessere Abschneiden von GNUBG ggü. BGB "signifikant" ist oder nicht.

Gruß

Andreas


WerDenktVerliert

  • Full Member
  • ***
  • Beiträge: 116
Re: Snowie 5 on hold
« Antwort #27 am: 24. Februar 2008, 18:28:13 »
Zu allererst... es ist nicht mein Begehr, irgend einen Bot schlecht zu reden. Auf der anderen Seite liegt mir aber auch nichts daran, etwas schön zu reden. Polemik halte ich daher für unangebracht. Falls die Diskussion zu sehr in diese Richtung geht, werde ich aussteigen.

Meine Antworten zu einzelnen Aussagen:

Es stet dir frei deinen Ansatz zu wählen wie du möchtest.

Ich halte es für plausibel, die Gesamtzahl der gewonnenen Spiele zu betrachten.

Als Beispiel möchte ich die Fußballbundesliga anführen. Am Ende der Saison wird die jenige Mannschaft als Meister gekürt, die gegen 17 verschiedene Gegner die meisten Punkte erzielt hat. Niemand würde Energie Cottbus für stärker als Bayern München halten, bloß weil sie Hin- und Rückspiel zwischen beiden Mannschaften gewonnen haben.

Vergleichbar ist das Big Bot Shoutout Experiment. Vier Bots spielten jeweils 1000 Matches gegeneinander, wie in einer Liga. Durch die Betrachtung der Summe des gewonnenen Spiel nutzt man die in den Daten enthaltene Information am besten aus. Sich auf einzelne Vergleiche zwischen Bots zu beschränken vermindert die Chancen signifikante Ergebnisse zu finden.


Das Kriterium ermöglicht dir nur die Nullhypothese abzulehnen, mehr nicht.

So ist der Formalismus eines statistischen Tests aufgebaut. Nullhypothese, Alternativhypothese... Ablehnung der Nullhypothese bedeutet Annahme der Alternativhypothese. Wer es genauer wissen will, findet die Beschreibung hier: http://de.wikipedia.org/wiki/Statistischer_Test -> Absatz "Interpretation eines statistischen Tests"


Deine Schlüsse stellst du aber als so dar: "GnuBG ist mit 99,2% um 24 Punkte stärker". Und das ist Nonsens und durch die Zahlen nicht zu belegen.

Diese Behauptung habe ich nicht aufgestellt.

Ich habe zwei separate Behauptungen aufgestellt:

1.) Die Wahrscheinlichkeit, dass GnuBG stärker spielt als BGBlitz liegt bei 99,2 %. (Wohlgemerkt, ich spreche nicht über den direkten Vergleich zwischen den beiden Bots, sondern den allgemeinen Wettkampf gegen verschiedene Gegner.)
2.) Nach den Daten des Big Bot Shootout Experiments ist es am wahrscheinlichsten, dass der Spielstärkeunterschied zwischen BGBlitz und GnuBG bei ca. 24 FIBS-Punkten liegt. (Die Differenz könnte auch kleiner oder größer sein, sie ist aber mit einer Wahrscheinlichkeit von 99,2% größer als 0 FIBS-Punkte)


Wenn ich dich recht verstehe ist BGB also ein Bot die es wie Sand am Meer gibt?  Ich habe gerade mal nachgeschaut, MonteCarlo und bonehead stehen auf FIBS bei 1950 bzw 1946.

Ich sprach davon, dass es eine Menge Bots gibt, die für den Normalverbraucher ausreichen, u.a. auch die beiden genannten. Von den beiden ist MonteCarlo aus meiner Sicht relativ schwach, aber bonehead ein durchaus ernst zu nehmender Gegner, dessen Ratingbandbreite zwischen 1900 und 2100 liegt. Mit 1950 liegt er im unteren Bereich dessen, was er wert ist.


Ich weiß nicht ob du der Meinung bist das Snowie 4 oder GnuBG das Nonplus-Ultra ist.

Ich bin nicht der Ansicht, dass Snowie oder GnuBG das Nonplusultra sind. Insbesondere bei GnuBG kenne ich einige  Schwächen, die ins Auge stechen. Am schlimmsten sind diese meines Erachtens, wenn das Crashed Net involviert ist.


Es ging um einen Fußgänger, oder wolltest du damit ausdrücken, dass du genauso gut (oder sogar besser spielst) als BGBlitz und deshalb diese Unterschiede für dich relevant sind? Wenn ich das so richtig interpretiere, würdest du dann zu einem Match gegen BGB antreten?

Meines Erachtens geht es nicht um die Frage, ob ich so gut wie BGBlitz spiele oder nicht. Ich sprach davon, dass ein starker Spieler einen sehr starken Bot viel nötiger hat, um sich zu verbessern, als ein schwächerer (Für denjenigen, der mit 100 km/h fährt, ist es relevant, ob der andere mit 99 oder 101 km/h fährt).

.
.
.

Ich habe mir sagen lassen, dass es eine ausgiebige Luck-Analyse des Big Bot Shoutout geben soll. Leider habe ich diese weder bei Gammonline, GammonU und BGOnline gefunden. An diesen Daten wäre ich sehr interessiert. Vielleicht können sie helfen, das Pech von BGBlitz gegen Jellyfish besser zu beleuchten.

WerDenktVerliert

  • Full Member
  • ***
  • Beiträge: 116
Re: Snowie 5 on hold
« Antwort #28 am: 24. Februar 2008, 18:37:14 »
Ich stelle die Frage nach der Signifikanz des Spielstärkeunterschieds zwischen BGBlitz und GnuBG. Hierzu verwende ich einen Chi-Quadrat-Vierfelder-Test.

             Win                     Loss
BGBlitz     1519                   1481
GnuBG     1623                   1377

Pearson's Chi-squared test with Yates' continuity correction

X-squared = 7.0885, df = 1, p-value = 0.007758

Daraus schließe ich, dass die Nullhypothese (Die Spielstärke von BGBlitz und GnuBG unterscheiden sich nicht signifikant) mit einer Wahrscheinlichkeit von 99,2 % abzulehnen ist. Somit ist es statistisch signifikant, dass GnuBG stärker spielt als BGBlitz.

Ist für einen derartigen Test nicht Voraussetzung, dass die 4 Beobachtungen voneinander unabhängig sind?

Die "Loss-Zahlen" sind jedoch nicht unabhängig von den "Win-Zahlen", sondern einfach 3000-n(win).

Die "Loss-Zahlen" enthalten somit keine weiter Information, als die beiden "Win-Zahlen".

Damit sehe ich keine Basis für einen "4 Felder Test" und halte den daraus gewonnen "p-Wert" für irrelevant hinsichtlich des Entscheids, ob das bessere Abschneiden von GNUBG ggü. BGB "signifikant" ist oder nicht.

Gruß

Andreas

Ich glaube, dass man den Test verwenden kann.

Der Vierfeldertest erfordert zwei statistisch unabhängige Gruppen, die verglichen werden.

-> http://de.wikipedia.org/wiki/Vierfeldertest

Er dient dazu, die Häufigkeit eines Merkmals in zwei statistisch unabhängigen Gruppen zu vergleichen und zugleich die Frage nach der Signifikanz des Testes zu beantworten.

Die Unabhängigkeit ist allerdings da nicht vorhanden, wo man die Ergebnisse zwischen BGBlitz und GnuBG mit berücksichtigt.

Wenn man dem Ergebnis nicht traut, kann man einfach die Ergebnisse zwischen BGBlitz und GnuBG weglassen und dann die Signifikanz berechnen.

WerDenktVerliert

  • Full Member
  • ***
  • Beiträge: 116
Re: Snowie 5 on hold
« Antwort #29 am: 24. Februar 2008, 18:55:23 »
Zum Vergleich habe ich die Spiele zwischen BGBlitz und GnuBG aufgrund der Doppelzählung weg gelassen. Das mindert die Informationsausnutzung. Aus einer Doppelzählung wird nun eine Gar-Nicht-Zählung des Ergebnisses zwischen den beiden Bots.

Die Nullhypothese ist nun mit 96,1 % abzulehnen.

Andreas

  • Hero Member
  • *****
  • Beiträge: 1.262
Re: Snowie 5 on hold
« Antwort #30 am: 24. Februar 2008, 19:52:11 »
BGBlitz konvertiert PBEM in.mat...nur bie HG führt das anders als bei noralem BG zur Fehlermeldung.
bring das in Ordnung
schick mir mal ein paar Beispieldateien. Vermutlich ist es nicht viel Arbeit (famous last words...)

Hallo Frank,
das Problem liegt darin, dass GNUBG im Hypergammon-Modus nicht mit .mat kommuniziert.
Wenn Du z.B. HG spielst und dann in .mat exportierst und das Spiel dann neu lädst, baut GNUBG automatisch wieder ein normales BG-Brett und kein HG-Brett auf.

Die Lösung bestünde somit darin, nicht in .mat, sondern direkt in .sgf zu konvertieren.
Ist das machbar?
und lass Dir BGBlitz künftig für sein Alleinstellungsmerkmal(!?) der Konversion bezahlen.
ne, das ist frei und bleibt frei


Prima  :)

Andreas

  • Hero Member
  • *****
  • Beiträge: 1.262
Re: Snowie 5 on hold
« Antwort #31 am: 24. Februar 2008, 20:22:52 »
Zum Vergleich habe ich die Spiele zwischen BGBlitz und GnuBG aufgrund der Doppelzählung weg gelassen. Das mindert die Informationsausnutzung. Aus einer Doppelzählung wird nun eine Gar-Nicht-Zählung des Ergebnisses zwischen den beiden Bots.

Die Nullhypothese ist nun mit 96,1 % abzulehnen.

Besser so...wenn auch unklar ist, ob der Informationsgehalt der GNUBG "Glücksauswertung" für BGB vs. JF tatsächlich ausgelassen werden darf.

Bleibt allerdings (zumindest) folgendes Problem:

Die Nullhypothese wird sowieso immer widerlegt, solange nicht beide Programme identisch sind; dies ist nur eine Frage der Anzahl der Versuche. Eine entsprechende "Widerlegung" hat für sich alleine genommen daher noch keine praktische Relevanz.

Es kommt, wie schon gesagt wurde, auf die Grösse des Unterschieds BGB vs. GNUBG und das zugehörige Vertrauensintervall an.

WerDenktVerliert

  • Full Member
  • ***
  • Beiträge: 116
Re: Snowie 5 on hold
« Antwort #32 am: 24. Februar 2008, 21:13:27 »
Besser so...wenn auch unklar ist, ob der Informationsgehalt der GNUBG "Glücksauswertung" für BGB vs. JF tatsächlich ausgelassen werden darf.

Ich gehe davon aus, dass es ausgereicht hätte, dafür zu sorgen, dass das Ergebnis zwischen BGBlitz und GnuBG nicht doppelt gewertet wird. Das wäre z.B. dadurch möglich gewesen, indem ich es aufgeteilt hätte. Ich habe es aber nicht getan und trotzdem war das Ergebnis noch signifikant.

Das Experiment basiert darauf, Stichproben zu nehmen. Dass das Ergebnis eine Schwankungsbreite aufweist, wird im statistischen Test schon berücksichtigt.


Die Nullhypothese wird sowieso immer widerlegt, solange nicht beide Programme identisch sind; dies ist nur eine Frage der Anzahl der Versuche.

Es besteht sogar die Möglichkeit, dass die Nullhypothese widerlegt wird, falls GnuBG gegen GnuBG spielt. Deswegen halte ich dieses Argument für ein wenig polemisch.

Das Ergebnis des Experiments, ohne das Vorhandensein einer Luck-Analyse, legt die Interpretation nah, dass der Spielstärkeunterschied am wahrscheinlichsten bei 24 FIBS-Punkten liegt. Ich freue mich daher sehr auf die Luck-Analyse.


WerDenktVerliert

  • Full Member
  • ***
  • Beiträge: 116
Re: Snowie 5 on hold
« Antwort #33 am: 24. Februar 2008, 21:29:32 »
Wegen mir können wir die Diskussion aber beenden. Jeder hat das Recht zu glauben, was er möchte.

Ich für meine Person verlasse mich auf die bisherigen Erfahrungen, die ich mit dem Programm gemacht habe. Da war jedes Mal BGBlitz, wenn auch nur knapp, schlechter als seine Hauptkonkurrenten. Kein einziges Mal lag es in Führung.

FrankBerger

  • Hero Member
  • *****
  • Beiträge: 594
    • BGBlitz Homepage
Re: Snowie 5 on hold
« Antwort #34 am: 24. Februar 2008, 22:53:13 »
das Problem liegt darin, dass GNUBG im Hypergammon-Modus nicht mit .mat kommuniziert.
Wenn Du z.B. HG spielst und dann in .mat exportierst und das Spiel dann neu lädst, baut GNUBG automatisch wieder ein normales BG-Brett und kein HG-Brett auf.

Die Lösung bestünde somit darin, nicht in .mat, sondern direkt in .sgf zu konvertieren.
Ist das machbar?

Uups. sgf unterstütze ich nicht. Es gibt AFAIK keine vernünftige Doku und es scheint sich zuweilen auch zu ändern, das ist dann eklig, weil man dem immer hinterherprogrammiert... Schade...

FrankBerger

  • Hero Member
  • *****
  • Beiträge: 594
    • BGBlitz Homepage
Re: Snowie 5 on hold
« Antwort #35 am: 24. Februar 2008, 23:00:09 »
Wegen mir können wir die Diskussion aber beenden. Jeder hat das Recht zu glauben, was er möchte.
Ja das scheint wenig zielführend zu sein. Wenn du (oder sonstwer) die Auswertungen Luck/Error bereinigt haben will schick mir deine email.

Ich für meine Person verlasse mich auf die bisherigen Erfahrungen, die ich mit dem Programm gemacht habe. Da war jedes Mal BGBlitz, wenn auch nur knapp, schlechter als seine Hauptkonkurrenten. Kein einziges Mal lag es in Führung.
Darf ich fragen welche das außer Depreli und Big Bot Shootout das sind?

Andreas

  • Hero Member
  • *****
  • Beiträge: 1.262
Re: Snowie 5 on hold
« Antwort #36 am: 24. Februar 2008, 23:35:20 »
Besser so...wenn auch unklar ist, ob der Informationsgehalt der GNUBG "Glücksauswertung" für BGB vs. JF tatsächlich ausgelassen werden darf.

Ich gehe davon aus, dass es ausgereicht hätte, dafür zu sorgen, dass das Ergebnis zwischen BGBlitz und GnuBG nicht doppelt gewertet wird. Das wäre z.B. dadurch möglich gewesen, indem ich es aufgeteilt hätte. Ich habe es aber nicht getan und trotzdem war das Ergebnis noch signifikant.

Das Experiment basiert darauf, Stichproben zu nehmen. Dass das Ergebnis eine Schwankungsbreite aufweist, wird im statistischen Test schon berücksichtigt.


Die Nullhypothese wird sowieso immer widerlegt, solange nicht beide Programme identisch sind; dies ist nur eine Frage der Anzahl der Versuche.

Es besteht sogar die Möglichkeit, dass die Nullhypothese widerlegt wird, falls GnuBG gegen GnuBG spielt. Deswegen halte ich dieses Argument für ein wenig polemisch.

Die Nullhypothese kann auch (scheinbar) widerlegt werden, wenn GNUBG gegen GNUBG spielt: jedes 20. Mal sollte dies der Fall sein, wenn man auf 95% Signifikanz abhebt.

Polemisch wollte ich damit nicht sein, sondern nur daraufhinweisen, dass die Bedeutung des "Null Hypothesen Signifikanztests" (NHST) nicht unumstritten ist, sondern u.a. mit eben jenem Argument angegriffen wird.

In der Praxis interessiert eher die Grösse des Unterschieds und das Konfidenzintervall.



Das Ergebnis des Experiments, ohne das Vorhandensein einer Luck-Analyse, legt die Interpretation nah, dass der Spielstärkeunterschied am wahrscheinlichsten bei 24 FIBS-Punkten liegt. Ich freue mich daher sehr auf die Luck-Analyse.


OK, danke!
Ich denke auch, dass es Bedeutung hat, dass BGBlitz GNUBG in unterschiedlichen Auseinandersetzungen unterlegen war, z.B. sowohl in der Anordnung BGB vs. GNUBG, als auch in der Anordnung BGB vs. Snowie, als auch in der Anordnung BGB vs. JF.

Die Bewertung der Ergebnisse unter Berücksichtigung der Luck-Analyse würde natürlich alle hier interessieren.

Könntest Du das versuchen?

Gruß

Andreas
« Letzte Änderung: 25. Februar 2008, 00:32:47 von Andreas »

acepoint

  • Sr. Member
  • ****
  • Beiträge: 156
    • acepoint's home
Re: Snowie 5 on hold
« Antwort #37 am: 26. März 2008, 14:20:09 »

Zum Fortschritt von GNUBG: ich glaube, hier ist mittelfristig nicht viel zu erwarten. Die Gründe dafür sind vielfältig: Arbeitsbelastung der bisherigen Entwickler; Code-Wirrwarr, der ein komplettes Neuschreiben der Software ratsam macht; nicht ausreichendes statistisches Knowhow, um die Spielstärke signifikant zu verbessern.

Zur Spielstärkeverbesserung: mir ist nicht ganz klar, wieso statistisches Know-How die Spielstärke signifikant steigern soll, aber da Du in weiteren Postings Deine Kenntnisse nachgewiesen hast, bist Du herzlich eingeladen, Vorschläge zu machen. Hast Du Dich schon auf der Mailingliste eingetragen? http://mail.gnu.org/mailman/listinfo/bug-gnubg

Ich habe vor etwa 9 Monaten zusammen mit Oystein versucht, verbesserte neuronale Netze zu erzeugen. Neben einer großen Anzahl schneller Rechner braucht man dafür vor allem Geduld und die Zeit, sich durch tausende von Stellungen zu wühlen, in denen Estimation von Rollout abweicht. Wir sind mit "jungfräulichen" Netzen und unterschiedlichen Trainingsmethoden gerade mal an die aktuelle Spielstärke herangekommen.

Zur Spielstärke: Ich würde Gnubg jederzeit gegen jeden anderen Bot "backen."

Zu den Fortschritten von Gnubg: SMP ist nun stabil, 3D ebenfalls, die Datenbankunterstützung ist integriert, dort fehlen nur "enduserfreundliche" Querymenüs, also es tut sich schon was. Installation unter Windosen sollte ein Kinderspiel sein, RPMs bzw Dpkgs für Debian/Ubuntu existieren (bei Installationsproblemen unter Linux bitte bei  mir melden). MacOS sieht etwas mau aus, da der sich einzige Macuser unter den Programmierern nicht mehr beteiligt.

Zum Botshootout: Eine nette Spielerei, mehr nicht. So weit ich erfahren habe, hat Gnubg mit der schlechtesten MET gespielt (direkt danach wurde dann g11 auf default gesetzt  ;)  ). Die Einstellungen der 3 anderen Bots kenne ich nicht, aber vielleicht hat man auch dort nicht unbedingt das beste Setup gefunden. Und wenn man die Matches hätte, könnte man mal mit Hilfe von Luck Adjusted Results versuchen, "glücksbereinigte" Ergebnisse zu berechnen.

Zur Arbeit von Frank: Da er in den letzten 8 Jahren (fast auschließlich) Einzelkämpfer war, ist seine Leistung mit BGBlitz umso höher einzuschätzen. Nur seine beharrliche Weigerung, endlich, endlich eine vernünftige Analysefunktion für ganze Matches oder Sessions einzusetzen, wundert mich. Aber da soll sich ja was tun ;).

Ciao

Achim



FrankBerger

  • Hero Member
  • *****
  • Beiträge: 594
    • BGBlitz Homepage
Re: Snowie 5 on hold
« Antwort #38 am: 27. März 2008, 21:53:24 »
Ich habe vor etwa 9 Monaten zusammen mit Oystein versucht, verbesserte neuronale Netze zu erzeugen. Neben einer großen Anzahl schneller Rechner braucht man dafür vor allem Geduld und die Zeit, sich durch tausende von Stellungen zu wühlen, in denen Estimation von Rollout abweicht. Wir sind mit "jungfräulichen" Netzen und unterschiedlichen Trainingsmethoden gerade mal an die aktuelle Spielstärke herangekommen.

Hm... das hatte ich gar nicht mitbekommen.  Ich kann aber bestätigen das es recht schwierig wird was zu erreichen. Demnächst kommt ein etwas stärkeres Netz (0,006 cubeless), hat mich aber drei Anläufe und etwas 3-4 Monate Rechenzeit auf einem aktuellen Quadcore gekostet.


Zum Botshootout: Eine nette Spielerei, mehr nicht. So weit ich erfahren habe, hat Gnubg mit der schlechtesten MET gespielt (direkt danach wurde dann g11 auf default gesetzt  ;)  ). Die Einstellungen der 3 anderen Bots kenne ich nicht, aber vielleicht hat man auch dort nicht unbedingt das beste Setup gefunden. Und wenn man die Matches hätte, könnte man mal mit Hilfe von Luck Adjusted Results versuchen, "glücksbereinigte" Ergebnisse zu berechnen.

Trotzdem neben dem Depreli Benchmark das Einzige was einigermaßen relevant ist. Du hast aber absolut Recht das man die Settings vorher hätte verifizieren sollen. Bei Snowie scheint da auch möglicherweise was schief zu seien. Da waren zwischen Match #929 und #970(?) reihenweise Beaver von Snowie. Ich habe mir mal 2 Matches angeschaut. Die Beaver sind meiner Meinung nach absoluter Mist! Auch wenn BGB den Würfel häufig einen Tick früher schickt wird IMHO da ja noch lange kein Beaver draus. Wenn GnuBG Beaver analysieren könnte, dürfte das das Snowie Rating und das glücksbereinigte Ergebnis *deutlich* korrigieren


Zur Arbeit von Frank: Da er in den letzten 8 Jahren (fast auschließlich) Einzelkämpfer war, ist seine Leistung mit BGBlitz umso höher einzuschätzen. Nur seine beharrliche Weigerung, endlich, endlich eine vernünftige Analysefunktion für ganze Matches oder Sessions einzusetzen, wundert mich. Aber da soll sich ja was tun ;).
Vielen Dank :)  Mit Version 2.6 kommen anständige und vernünftig benutzbare Rollouts und mit 2.8 Analyze. Wenn nix schiefgeht zum Ende des Jahres (wer hat da gelacht? ;))

War auch nicht wirklich ne Weigerung, ist schlicht Zeitmangel.

Der Bericht vom Open hat mir übrigens gut gefallen....


« Letzte Änderung: 27. März 2008, 21:55:54 von FrankBerger »

acepoint

  • Sr. Member
  • ****
  • Beiträge: 156
    • acepoint's home
Re: Snowie 5 on hold
« Antwort #39 am: 27. März 2008, 22:45:39 »
Ich habe vor etwa 9 Monaten zusammen mit Oystein versucht, verbesserte neuronale Netze zu erzeugen. Neben einer großen Anzahl schneller Rechner braucht man dafür vor allem Geduld und die Zeit, sich durch tausende von Stellungen zu wühlen, in denen Estimation von Rollout abweicht. Wir sind mit "jungfräulichen" Netzen und unterschiedlichen Trainingsmethoden gerade mal an die aktuelle Spielstärke herangekommen.
Hm... das hatte ich gar nicht mitbekommen.  Ich kann aber bestätigen das es recht schwierig wird was zu erreichen. Demnächst kommt ein etwas stärkeres Netz (0,006 cubeless), hat mich aber drei Anläufe und etwas 3-4 Monate Rechenzeit auf einem aktuellen Quadcore gekostet.

Must ja auch nicht alles wissen  ;). Im Ernst, da ging es um eine Uni-Arbeit von Oystein, das war abseits vom Gnubg-Projekt.

Zum Botshootout: Eine nette Spielerei, mehr nicht. So weit ich erfahren habe, hat Gnubg mit der schlechtesten MET gespielt (direkt danach wurde dann g11 auf default gesetzt  ;)  ). Die Einstellungen der 3 anderen Bots kenne ich nicht, aber vielleicht hat man auch dort nicht unbedingt das beste Setup gefunden. Und wenn man die Matches hätte, könnte man mal mit Hilfe von Luck Adjusted Results versuchen, "glücksbereinigte" Ergebnisse zu berechnen.
Trotzdem neben dem Depreli Benchmark das Einzige was einigermaßen relevant ist. Du hast aber absolut Recht das man die Settings vorher hätte verifizieren sollen. Bei Snowie scheint da auch möglicherweise was schief zu seien. Da waren zwischen Match #929 und #970(?) reihenweise Beaver von Snowie. Ich habe mir mal 2 Matches angeschaut. Die Beaver sind meiner Meinung nach absoluter Mist! Auch wenn BGB den Würfel häufig einen Tick früher schickt wird IMHO da ja noch lange kein Beaver draus. Wenn GnuBG Beaver analysieren könnte, dürfte das das Snowie Rating und das glücksbereinigte Ergebnis *deutlich* korrigieren

Was? ???  Beaver bei 25-Punkte-Matches? Wie geht das denn? :-"  Dann kannst Du den Test ganz vergessen.

Ciao

Achim

FrankBerger

  • Hero Member
  • *****
  • Beiträge: 594
    • BGBlitz Homepage
Re: Snowie 5 on hold
« Antwort #40 am: 04. April 2008, 13:16:23 »
Und wenn man die Matches hätte, könnte man mal mit Hilfe von Luck Adjusted Results versuchen, "glücksbereinigte" Ergebnisse zu berechnen.

Das kommt davon wenn man Postings im Halbschlaf liest und dabei Sachen übersieht:

Peter Fankhauser hat Luck- und Error-adjusted results ermittelt (aber mit 0-ply, sonst hätte das ja auch rund 2 Jahre Rechenzeit verschlungen). Auf den Ergebnissen basierte meine Anmerkung das BGB gegen JF keine guten Würfel hatte.

Die Matches sind übrigens hier: http://www.bgblitz.com/download/big_bot_shootout.zip

Zur Analyse ist noch anzumerken, das "BGB vs S4" bei Luckadjusted S4 knapp besser aussieht, bei Error-adjusted BGB. IIRC meinte Peter das läge wohl daran, dass BGBs Stil näher an GnuBG liegt als an S4... Das kann gut sein.

Zu Berücksichtigen ist auch noch, das von Match #929 etwa 40-50 Matches Beaver!!! von Snowie kommen und nicht in die Bewertung eingegangen sind. Ich hab mir nur die ersten 2 Matches angeschaut.... schade, schade das Gnu keine Beaver analysieren kann. Aber ich denke da ist irgendwas mit der Konfiguration in de Hose gegangen sein (obwohl das ja eigentlich der Dueller macht). Möglicherweise hat S4 da Moneygames gespielt? Dann wäre es natürlich o.k. die Matches nicht zu berücksichtigen.

Falls übrigens jemand so einen Vergleich mal neu mit abgestimmter Konfiguration machen möchte: Um BGB mit dem Dueller zu nutzen braucht man keine Lizenz von BGB. Der oder diejenige sollte sich aber mit mir vorab in Verbindung setzen. Erstens kann ich die Konfiguration unterstützen, zweitens kann es ja sein das ich eine stärkere Vorabversion habe :) und drittens bin ich einfach neugierig :))