Identifiera matcher i olika cluster

När jag tittar på DNA resultat gör jag det ofta från flera olika bolag – just för att man vill finnas på flera bolag för att kunna få så många DNA träffar som möjligt.

Nackdelen med det är att man får flera olika cluster rapporter, med olika varianter och det är svårt att hitta gemensamma nämnare mellan de olika rapporterna.

Så, för att förenkla det skapade jag ett Python script som tittar på två cluster filer, jämför namn och sen även cM värdet utifrån ett givet tröskelvärde.

Jag vill på ett smidigt sätt hitta personer med liknande namn och någorlunda liknande andel delat DNA – i centiMorgan. Det i sin tur hjälper mig att förstå hur ett kluster från ett testbolag hänger ihop med ett kluster med matchingar från ett annat bolag.

*Två kluster, MyHeritage till vänster, FTDNA till höger. Samma test tagare. Båda clustren skapade med DNAGedCom.*

Vad mitt script gör är att det tar Namn och cM värde för matchningarna i listan från kluster ett och jämför varje rad med samtliga rader i motsvarande från kluster två.

Denna jämförelse görs på två premisser – cM värdet får inte skilja sig mer än ett angivet antingen %-värde, eller viss mängd cM.

Vidare jämförs namnet, här kan man ange ett ”fuzzyness” värde, 0.4 – 0.6 ungefär, ju högre värde ju striktare jämförelse, ju lägre desto luddigare. Fuzziness!

Output blir en Excel-fil med Namn och cM värden från Fil 1 och en matching mot ett möjligt namn med relevant cM värde i Fil 2.

Källfilen är en CSV som innehåller kolumnerna ”name” och ”cM”.

Här öppnad i Excel

Resultatet när man kör scriptet blir en fil som ser ut som de två nedan (mina egna gul-markeringar dock).

Vänster fil ovan använde Fuzzyness 0.6 medans den högra 0.4. Notera de tre gula matchningarna där namnen är snarlika, men ändå inte samma. Det handlar om Lika/liknande förnamn och/eller efternamn osv. Olika matchlistor kräver olika fuzzynessvärde – så prova lite olika värden.

Förutsättningar:

Python installerat på din dator.
”Pandas” Python-bibliotek (pip install pandas / pip3 install pandas).
Två CSV-filer med kolumnerna ”name” och ”cM”.

Notera: Scriptet är skapat för utdata från kluster som genererats av DNAGedcom-klienten, men det kan fungera med andra klusterfiler också. Om du har filer från andra källor, se till att de har rätt kolumnnamn (”name” och ”cM”).

Hur man använder ClusterCompare:

Ladda ner scriptet här.
Öppna en terminal eller kommandotolk.
Navigera till mappen där du laddade ner scriptet.
Packa upp med unzip
Kör scriptet med kommandot:
python ClusterCompare.py [väg_till_första_filen] [väg_till_andra_filen] [tröskelvärde] [fuzzyness]
Exempel: python3 ClusterCompare.py min_första_fil.csv min_andra_fil.csv 10% 0.5
- Exemplet ovan jämför namn och cM i två csv filer, den tittar dels på cM värden som skiljer sig max 10% och använder ett ”fuzzyness” värde för namnjämförelse på 0.5 (du får bäst resultat med 0.4-0.6 ungefär, testa dig fram.
Scriptet kommer att generera en Excel-fil med namnet ”ClusterCompare_[Aktuell Tidsstämpel].xlsx” som innehåller matchningarna mellan de två filerna, denna sparas i samma mapp sin scriptet.

Anpassa filer från andra källor:

Om du har DNA-klusterfiler från andra källor än DNAGedcom, se till att:

Filerna är i CSV-format.
Filerna har kolumnerna ”name” och ”cM”.
Om det finns ytterligare kolumner i dina filer, se till att de inte stör jämförelsen. Du kan behöva redigera dina filer för att passa scriptets krav.

Avslutningsvis:

ClusterCompare är ett praktiskt verktyg för att hitta potentiellt samma matchingar i olika DNA-kluster från olika källor.

Du använder scriptet på egen risk och det tillgängliggörs helt utan support och andra åtaganden.

Jag vann…

ByMattias 2023-09-11

Okej, det är ett tag sen jag tävlade men visst, jag har inte heller kommit igång med bloggen… Jag kan i alla fall titulera mig ”Sveriges snabbaste släktträdsbyggare”. Det ska bli kul att se om det anordnas en ny tävlig, i så fall är jag på :)!

DNA | MyHeritage | Nyheter

Dela MyHeritage DNA resultat med en expert

ByMattias 2024-03-212024-03-21

Dagen har äntligen kommit – MyHeritage har släppt möjligheten för användare att ”Dela DNA-resultat med en expert”. Detta är en funktion som presenterades på RootsTech 2024 och som nu alltså gjorts tillgänglig – se tidigare inlägg. Det här är rent principellt ett stort steg för både MyHeritage och dess användare. Tidigare har man varit ”tvingad”…

Blandat | Crossover | Nyheter | Sveriges Dödbok | Verktyg och Hjälpmedel

Sveriges Dödbok på Mac

ByMattias 2024-01-092024-01-16

Sveriges Släktforskarförbund har släppt ”Sveriges Dödbok 9”. English version down below Enligt produktbeskrivningen, och också den teknik man använt för att publicera själva databasen så fungerar den inte på Mac. Men, det finns förstås sätt att hantera och komma runt det. Här nedan kommer en möjlig lösning! Det går att ”emulera” windows på en Mac…

Ancestry | Blandat | Nyheter | Testföretag

Kommer Ancestry tillåta uppladdning av DNA-rådata?

ByMattias 2023-09-122024-01-23

Under ett släktforskningsevent i mitten av augusti kom det fram att AncestryDNA funderade på att tillåta uppladdning av DNA-filer skapade av andra företag till sin databas. Denna förändring skulle kunna revolutionera den genetiska genealogins värld. AncestryDNA har den största genealogiska DNA-databasen, och genom att tillåta fler uppladdningar skulle många dra nytta av att ha sina…

Fiska i flera dammar

ByMattias 2023-09-122024-01-23

Fiska i många dammar! Vikten av att ha din DNA-data på alla stora leverantörer När det kommer till genetisk genealogi och släktforskning med DNA, finns det ett talesätt som ofta cirkulerar bland forskare: ”Fiska i många dammar”. Men vad betyder det egentligen, och varför är det så viktigt? Att ”fiska i många dammar” innebär att…

Tävla i Släktforsking?

ByMattias 2022-09-292023-09-11

Idag höll Genealogiska Föreningen en tävling i att bygga släktträd. Så kallade ”Quick & Dirty trees” – eller helt enkelt, snabba träd. Tävlingen som sådan gick till som så att det ”slumpas” fram ett namn & födelsedatum – i detta fallet gick man på ett slumpvis valt registreringsnummer och ägaren (förra ägaren faktiskt) blev målperson….

Förutsättningar:

Hur man använder ClusterCompare:

Anpassa filer från andra källor:

Avslutningsvis:

Similar Posts

Lämna ett svar Avbryt svar