ScidBase
Hauptseite Scid Daily Bildschirmfotos Neuigkeiten Herunterladen Beta Tests CD-ROM ScidBase Scidlet Ressourcen Links Autor
English   Deutsch 

ScidBase ist eine hochwertige Referenzdatenbank von unkommentierten Partien auf Meisterniveau im Datenbankformat von Scid. Es ist nur als CD-ROM erhältlich, mit einer kleinen Spende, um die Kosten für Herstellung/Versand und den Zeitaufwand für die Zusammenstellung abzudecken.

Merkmale von ScidBase

Hier sind einige Statistiken vom 29 Jan 2004 über ScidBase.

  • 1.03 Millionen Partien
  • Durchschnittsjahr: 1990 (Jahresspanne: 1834 bis 2004)
  • Durchschnittliches Elo-Rating: 2350
  • Beide Spieler mit Rating 2600+: mehr als 19,000 Partien*
  • Beide Spieler mit Rating 2500+: mehr als 92,000 Partien*
  • Beide Spieler mit Rating 2400+: mehr als 260,000 Partien*
  • Beide Spieler mit Rating 2300+: mehr als 430,000 Partien*
[*] Die Datei für die Rechtschreibprüfung liefert für starke historische Spieler vor 1970 – bevor das Rating eingeführt wurde – virtuelle Ratingzahlen. Diese Zahlen beinhalten daher zum Beispiel Partien zwischen Spielern wie Capablanca und Aljechin.

ScidBase ist das Ergebnis vieler Hunderter von Arbeitsstunden...

  • Herunterladen von Partiesammlungen
  • Umwandeln von verschiedenen Formaten (CA, CBF, CBH, PGN) nach Scid
  • Bereinigung von ungeordneten Merkmalen (Angaben über Turnier, Spielort usw.)
  • Vereinheitlichung von Spieler-/Turnier-/Ortsnamen (unter Verwendung der in Scid vorhandenen Schreibkorrektur, von zu diesem Zweck geschriebenen Hilfsprogrammen und viel manueller Bereinigung)
  • Aussortieren von unklaren Namen, wo möglich (manchmal ist dies unmöglich; versuchen Sie mal, die zwei Andrei Sokolovs richtig auseinander zu halten!)
  • Dubletten finden und beseitigen und dabei darauf achten, "falsche" Dubletten zu vermeiden
  • Aussondern von Partien von Spielern mit niedrigem Rating, Internet-Blitz-Müll, Computer-Blitz-Müll, schwache regionale Jugendmeisterschaften usw. usw.

Was ist drin, was ist draußen

Viele im Internet verfügbare Partien (von ausreichend starken Spielern unter ernsthaften Bedingungen bei ernsthafter Zeitkontrolle gespielt) sind einfach nicht "stark" genug für eine Datenbank wie ScidBase. Einige Blitzpartien sind schön (so wie die Stichkämpfe für eine ernsthafte Meisterschaft), aber zuviele reduzieren die Qualität des dargebotenen Schachs.

Die meisten historischen Partien sind enthalten, aber viel Seltsames sowie Schaupartien wurden außen vor gelassen. Ich mache mir wirklich nichts daraus, wie oft Morphy Patzer geschlagen hat. Für Turniere in der modernen Zeit ist die Faustregel, daß ein Turnier wenigstens einige starke Titelträger haben sollte und nicht zu viele vollständig unbekannte Spieler.

Es gibt verhältnismäßig wenige Partien Computer gegen Computer, außer für so wichtige Ereignisse wie organisierte Meisterschaften. Partien "Computer-Computer" können leicht erzeugt werden, aber sie tendieren dazu, in einer allgemeinen Datenbank die Informationen über Eröffnungen zu verfälschen. Fernschachpartien sind ebenfalls hauptsächlich auf Weltmeisterschaften und ähnliches beschränkt, da die Qualität im Fernschach stark schwankt.

Eine gute Daumenregel für die jüngeren Jahre: wenn es für TWIC (The Week in Chess) gut genug ist, dann ist es auch gut genug für ScidBase. Es ist schwierig, eine feste Regel zu setzen, weil sogar Jugendturniere wie die nationalen oder regionalen Meisterschaften der unter zwölf- oder zehnjährigen heutzutage starke Titelträger haben können.

Eine Grauzone bilden große Schweizer Turniere, die einige Großmeister, IMs usw., aber ebenso auch viele schwache Spieler haben. ScidBase beinhaltet allgemein alle bekannten Partien solcher Turniere unter Vermeidung einer "Zensur", die auf Ratingzahlen beruht, obwohl in vielen Fällen überhaupt nur die Partien verfügbar sind, in denen wenigstens ein "starker" Spieler beteiligt war.

Die meisten Datenbanken enthalten viele "leere" Partien (mit keinen oder nur sehr wenigen Zügen, die üblicherweise mit 1. a4 oder 1. h4 beginnen). Diese wurden nur zurückbehalten, um Kreuztabellen zu vervollständigen, und sind einfach genug, um sie mit einer Partiedatensuche in Scid zu beseitigen, falls Sie das so wollen. Leere Partien in Turnieren, wo bereits viele Partien fehlen, sind in der Regel gelöscht worden.

Namenskonvention

Eines der wichtigsten Merkmale einer gut bereinigten Datenbank (abgesehen davon, daß sie sehr wenige Dubletten hat) ist eine einheitliche, standardisierte Bezeichnung von Spielern, Turnieren und Spielorten. Hier ist eine kurze Erklärung von einigen der in ScidBase verwendeten Namenskonventionen.

Spielernamen

In den meisten Fällen werden volle Namen (so, wie sie in der letzten Ratingliste der FIDE auftauchen) verwendet. Wenn ein Spieler mehr als einen bekannten Rufnamen hat, werden der zweite und die folgenden Rufnamen in der Regel mit den Anfangsbuchstaben abgekürzt. Wo immer möglich haben alle Partien eines Spielers den gleichen Namen für diesen Spieler gemeinsam. Ungenügende Namensinformation macht dies oft unmöglich, und es gibt in der Datenbank noch einige mehrdeutig abgekürzte Namen.

Ländercodes werden ignoriert, außer um kollidierende Namen eindeutig zu machen. Dies ist für die Ära der Nach-UdSSR wichtig, wo viele Spieler mehr als ein Land vertreten haben. Titel (GM/IM/FM usw.) wurden ebenso gelöscht (da sie oft ohnehin falsch sind) wie Zusätze über Verein und Region. Sie mögen bei einer Sammlung, die Bundesligapartien gewidmet ist, wissen wollen, wer für Solingen spielte, aber hier handelt es sich hier um eine allgemeine Datenbank.

Spieler, die eine Namensänderung hatten (in der Regel Frauen, die geheiratet haben), haben den aktuellen Namen nachträglich erhalten. Dies mag ein wenig verwirrend sein, vermeidet aber einen Spieler unter zwei verschiedenen Namen und die Notwendigkeit zu entscheiden, wann sich der Name tatsächlich geändert hat.

Datumsangaben

Wo immer möglich, wird das volle Datum (z.B. 2003.12.31) verwendet. Falls nur der Monat, in dem ein Turnier begann, bekannt ist, wird dieser für alle Partien dieses Turniers verwendet: "1998.04" zum Beispiel, selbst wenn einige Partien im Mai gespielt wurden.

Eine strenge feste Regel ist, daß jede Partie, die als zu einem Turnier gehörend betrachtet wird, das gleiche Turnierdatum haben muß (was soviel wie die Information über das bekannte Datum der ersten Partie ist). Dies ist für die Zuordnung von Partien zu Turnieren wichtig.

Ortsnamen

Beinahe alle Ortsangaben enden mit einem Ländercode aus drei Buchstaben. Die gängige englische Schreibweiswe für Städtenamen wird allgemein verwendet. Ortsangaben, wo nur das Land bekannt ist, haben nur den Ländercode, z.B. "FRA" (dies wird für Mannschaftsmeisterschaften, die in mehreren Städten über mehrere Monate hinweg stattfinden können, am häufigsten angewendet).

Wo ein Ort das Land wechselte (z.B. GER/FRG/GDR, Jugoslawien und die ehemaligen Sowjetrepubliken), wird das gegenwärtige Land verwendet. Es ist "Kiev UKR" (Ukraine), selbst wenn dort die Meisterschaft der UdSSR gespielt wurde.

Turniere, die an mehreren Orten gespielt wurden, haben in der Regel einen einheitlichen Ortsnamen, so wie"London ENG / Leningrad RUS" für die Weltmeisterschaft 1986. Diese Regel wird bei lange laufenden Ereignissen weniger klar befolgt. So kann eine nationale Mannschaftsmeisterschaft sinnvoll als ein einziges Ereignis (in welchem Fall es eine einheitliche Ortsangabe haben sollte) oder als mehrere einzelne Ereignisse gedeutet werden.

Internetpartien haben den Ländercode "INT", z.B. "Internet Chess Club INT" oder einfach die Gattung "Internet INT". Fernschachpartien haben einen Ort "Corr", der möglicherweise von einem Ländercode gefolgt wird, wenn sie innerhalb einer Nation gespielt wurden.

Namen von Veranstaltungen

Die Vereinheitlichung von Veranstaltungsnamen ist wahrscheinlich der schwierigste Teil einer Datenbankbereinigung. Es gibt so viele mehrdeutige Konventionen und Abkürzungen. Für ScidBase habe ich versucht, ein einigermaßen ausführliches Standardformat zu erzeugen und wende es so konsequent wie möglich an, um noch Veranstaltungsnamen in lesbarem Englisch zu haben. Hier sind ein paar der aufgetretenen Probleme:

  • Inkonsequente Reihenfolge von allgemeinen Bezeichnungen wie Open, Women, Junior usw.
  • Inkonsequente Abkürzung und Großschreibung von allgemeinen Bezeichnungen.
  • "M" kann "match" oder "men" sein; "W" kann "women" oder "world" bedeuten; "b" kann "blitz" oder "boys" bedeuten; "g" kann "game" oder "girls" bedeuten; "f" kann "final" oder "female" bedeuten.
  • Römische Zahlen werden überstrapaziert: für Klassen (III für Stufe C), Monate (III für März), FIDE-Kategorien und jährliche Zähler (III für das dritte Vorkommen einer Veranstaltung).
  • Inkonsequenter Gebrauch von Sponsorennamen.
  • Die Angabe der Bedenkzeit (Blitz, Schnellschach, g/30 usw.) im Veranstaltungsnamen ist in den meisten Datenbanken ein Durcheinander.

Die Konventionen von Veranstaltungsnamen in ScidBase beinhalten:

  • Wenige Abkürzungen. Women, World, Open, Team und Match werden voll ausgeschrieben. Championship wird als Ch und International als It gelassen, da dies sehr gebräuchliche Konventionen sind.
  • Ländercodes, wo praktikabel: FRA anstatt France oder French. Eine Ausnahme: ich habe "USSR" gegenüber "URS" vorgezogen, weil es nur ein weiterer Buchstabe und leichter zu lesen ist.
  • Ereigniszahlen stehen zu Beginn des Ereignisnamens, gefolgt von einem Punkt. Anhänge wie (1)"st", (2)"nd" und (3)"rd" werden vermieden. Beispiel: "53. USA Ch" für die 53. Meisterschaft der USA.
  • Kategoriezahlen wie "... (cat. 4)" werden vermieden, außer dort, wo sie notwendig sind, um zwei Turniere, die sonst das gleiche Ereignis und den gleichen Ort im selben Jahr haben, eindeutig zu machen.
  • Wir vermeiden es generell, die Information im Veranstaltungsfeld zu vervielfältigen, außer für eine nationale Meisterschaft oder eine Stadtmeisterschaft. So mögen Sie die Veranstaltung "London Ch" sehen, aber "5. London Open" wäre einfach "5. Open".

Zusammenfassung

Wie Sie sehen, machte ScidBase viel Arbeit. Ich hoffe, Sie unterstützen sie, indem Sie gegen eine Spende eine Kopie hiervon auf CD-ROM beziehen.


SourceForge Hosted by SourceForge
Scid SF Index Page
© 2004 Shane Hudson
Seite aktualisiert: 29 Jan 2004